纽约时报:三大科技巨头为训练人工智能模型可疑获取数据黄子佼“战队”再迎一员?吴宗宪罕见发声力挺,评论区显然不买账
鞭牛士报道,4月8日消息,据外电报道,在起诉OpenAI 涉嫌侵犯版权约三个月后,《纽约时报》周六在一份新报告中声称 ,OpenAI、Google LLC 和 Meta Platform 在训练其人工智能模型时可能存在可疑行为。
该报告首先针对 OpenAI,声称该公司使用一种名为 Whisper 的语音识别工具来转录 YouTube 视频中的音频,并为 A. 训练生成新的对话文本。
报道称,OpenAI 工作人员讨论了转录 YouTube 视频的决定是否可能违反该视频网站的规则,这显然是一个揭露。
随后透露,OpenAI 确实转录了超过 100 万小时的 YouTube 视频,并且这得到了 OpenAI 总裁 Greg Brockman 的协助。然后将转录用作训练 GPT-4 的一部分。
报告声称,人工智能已经成为对推进技术所需的数字数据的拼命搜寻,然后补充道,「为了获取这些数据,包括 OpenAI、谷歌和 Meta 在内的科技公司走捷径,无视公司政策,并争论改变人工智能的发展方向。」
该报告随后声称,Meta 显然考虑收购出版商 Simon & Schuster LLC,以采购长篇作品来协助训练他们的人工智能,并讨论了从互联网上收集受版权保护的数据,即使这意味着面临诉讼以及与出版商谈判许可、艺术家、音乐家和新闻业需要太长时间。”
随后,谷歌被指控转录 YouTube 视频为其人工智能模型收集文本,《纽约时报》报道称,谷歌可能侵犯了视频的版权,并更改了条款,允许抓取公开可用的谷歌文档、谷歌地图上的餐馆评论和其他在线材料来训练他们的人工智能。
鉴于这种语言,《纽约时报》似乎试图描绘一幅大规模版权盗窃的可怕画面,但往往避免直接这么说。谷歌并没有窃取转录内容,它可能侵犯了版权; Meta讨论了抓取公共数据的合法性; OpenAI 讨论了转录 YouTube 是否可能违反某些规则。
这些都是任何开发人工智能的公司在与他人友好相处和遵守法律时应该进行的合理对话。关于人工智能的合理使用和数据,法律仍然非常灰色,《纽约时报》知道这一点,否则它不会起诉 OpenAI。
值得注意的是,合理使用是人工智能公司所做工作的核心,也是 OpenAI在《纽约时报》诉讼中辩护的关键。人工智能开发人员认为,使用公开内容训练人工智能模型是合理使用。
这篇文章的另一个显著特点是,《纽约时报》的文章用了 17 段才披露其正在就报告中的一些指控起诉 OpenAI,这使得这篇文章无论有意还是无意,读起来就像是针对该公司的攻击文章。
以下为纽约时报全文:
2021年底,OpenAI面临数据供应问题。
在开发最新的人工智能系统时,人工智能实验室已经耗尽了互联网上所有有信誉的英语文本库。它需要更多的数据来训练其技术的下一个版本——更多。
因此 OpenAI 研究人员创建了一款名为 Whisper 的语音识别工具。它可以转录 YouTube 视频中的音频,生成新的对话文本,使人工智能系统变得更加智能。
三名知情人士表示,一些 OpenAI 员工讨论了此举可能违反 YouTube 的规则。谷歌旗下的 YouTube 禁止将其视频用于独立于该视频平台的应用程序。
知情人士称,最终 OpenAI 团队转录了超过 100 万小时的 YouTube 视频。
两位知情人士称,该团队包括 OpenAI 总裁格雷格·布罗克曼 (Greg Brockman),他亲自帮助收集了这些视频。然后这些文本被输入一个名为GPT-4的系统,该系统被广泛认为是世界上最强大的人工智能模型之一,也是最新版本 ChatGPT 聊天机器人的基础。
引领人工智能的竞赛已经变成了对推进技术所需的数字数据的拼命搜寻。
根据《纽约时报》的调查,为了获取这些数据,包括 OpenAI、谷歌和 Meta 在内的科技公司纷纷走捷径,无视公司政策,并讨论违反法律。
根据《纽约时报》获得的内部会议记录,在拥有 Facebook 和 Instagram 的 Meta 公司,经理、律师和工程师去年讨论了收购 Simon & Schuster 出版社以采购长篇作品。他们还商定从互联网上收集受版权保护的数据,即使这意味着面临诉讼。
他们说,与出版商、艺术家、音乐家和新闻业谈判许可将花费太长时间。
五位了解该公司实践的人士表示,与 OpenAI 一样,谷歌也转录了 YouTube 视频,为其人工智能模型收集文本。这可能侵犯了视频的版权,这些视频属于其创作者。
去年,谷歌还扩大了其服务条款。
根据该公司隐私团队的成员和《纽约时报》看到的一份内部消息,这一变化的动机之一是允许谷歌能够利用公开的谷歌文档、谷歌地图上的餐厅评论和其他在线材料来获取更多信息。
这些公司的行动说明了在线信息——新闻故事、虚构作品、留言板帖子、维基百科文章、计算机程序、照片、播客和电影剪辑——如何日益成为蓬勃发展的人工智能行业的命脉。创建创新系统取决于是否有足够的数据来教导技术立即生成类似于人类创建的文本、图像、声音和视频。
数据量至关重要。
领先的聊天机器人系统已经从涵盖多达 3 万亿字的数字文本池中学习,大约是牛津大学博德利图书馆存储的字数的两倍,该图书馆自 1602 年以来一直收集手稿。
人工智能研究人员表示,最有价值的数据是优质信息,例如由专业人士精心撰写和编辑的已出版书籍和文章。
多年来,互联网(包括维基百科和Reddit等网站)似乎是无穷无尽的数据源。但随着人工智能的进步,科技公司寻求更多的存储库。
谷歌和 Meta 拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,这在很大程度上受到隐私法和他们自己的政策的限制,无法将大部分内容用于人工智能。
他们的情况很紧急。
研究机构 Epoch 表示,科技公司最早可以在 2026 年运行互联网上的高质量数据。这些公司使用数据的速度比产生数据的速度还要快。
硅谷风险投资公司 Andreessen Horowitz 的代表律师 Sy Damle在谈到人工智能模型时表示: 这些工具存在的唯一实用方法是,它们可以接受大量数据的训练,而无需获得这些数据的许可。所需的数据如此庞大,即使是集体许可也确实行不通。
科技公司如此渴望新数据,以至于一些公司正在开发合成信息。这不是人类创建的有机数据,而是人工智能模型生成的文本、图像和代码——换句话说,系统从它们自己生成的内容中学习。
OpenAI 表示,其每个人工智能模型都拥有我们精心策划的独特数据集,以帮助他们了解世界并在研究中保持全球竞争力。
谷歌表示,其人工智能模型接受了一些 YouTube 内容的训练,这是与 YouTube 创作者达成的协议所允许的,并且该公司没有在实验计划之外使用来自办公应用程序的数据。
Meta 表示,它已经进行了积极投资,将人工智能整合到其服务中,并从 Instagram 和 Facebook 获取了数十亿公开共享的图像和视频来训练其模型。
对于创作者来说,人工智能公司越来越多地使用他们的作品,引发了有关版权和许可的诉讼。
《纽约时报》去年起诉 OpenAI 和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练人工智能聊天机器人。
OpenAI 和微软表示,使用这些文章是合理使用,或者说是版权法允许的,因为他们为了不同的目的而改造了这些作品。
去年,超过 10,000 个贸易团体、作者、公司和其他人士向版权局提交了有关人工智能模型使用创意作品的评论,版权局是一个正在准备版权法在人工智能时代如何适用的联邦机构的指南。
电影制作人、前演员和两本书的作者贾斯汀·贝特曼 (Justine Bateman) 告诉版权局,人工智能模型在未经许可或付费的情况下获取内容(包括她的作品和电影)。
「这是美国最大的盗窃案。」她在接受采访时说。
「规模就是你所需要的」
2020 年 1 月,约翰·霍普金斯大学理论物理学家 Jared Kaplan 发表了一篇关于人工智能的开创性论文,激发了人们对在线数据的兴趣。
他的结论很明确:训练大型语言模型(驱动在线聊天机器人的技术)所需的数据越多,它的性能就越好。正如学生通过阅读更多书籍可以学到更多知识一样,大型语言模型可以更好地查明文本中的模式,并通过更多信息变得更加准确。
「每个人都非常惊讶,这些趋势——我们所说的这些缩放定律——基本上和你在天文学或物理学中看到的一样精确。」卡普兰博士说,他与九名 OpenAI 研究人员一起发表了这篇论文。
他现在在人工智能初创公司 Anthropic 工作。
「规模就是你所需要的」很快成为人工智能的战斗口号
研究人员长期以来一直使用大型公共数字信息数据库来开发人工智能,包括维基百科和 Common Crawl,这是一个自 2007 年以来收集的超过 2500 亿个网页的数据库。
研究人员经常通过在使用之前删除仇恨言论和其他不需要的文本来清理数据。
按照今天的标准,2020 年的数据集很小。一个包含来自照片网站 Flickr 的 30,000 张照片的数据库在当时被视为重要资源。
在卡普兰博士发表论文之后,这些数据量已经不够了。纽约人工智能公司 Nomic 的首席执行官布兰登·杜德施塔特 (Brandon Duderstadt) 表示,一切都是为了把事情做大。
当 OpenAI 于 2020 年 11 月推出GPT-3时,它接受了迄今为止最大量的数据训练——约 3000 亿个token,这些token本质上是单词或单词片段。从这些数据中学习后,系统以惊人的准确性生成文本,编写博客文章、诗歌和自己的计算机程序。
2022 年,谷歌旗下的人工智能实验室 DeepMind 走得更远。它测试了 400 个人工智能模型,并改变了训练数据量和其他因素。表现最好的模型使用的数据甚至比卡普兰博士在论文中预测的还要多。其中一个模型 Chinchilla 接受了 1.4 万亿个token的训练。
很快就被超越了。
去年,中国研究人员发布了一个人工智能模型Skywork,该模型使用来自英文和中文文本的 3.2 万亿个标记进行训练。谷歌还推出了人工智能系统PaLM 2,token突破3.6万亿。
转录 YouTube
今年 5 月,OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman ) 承认,人工智能公司将耗尽互联网上所有可行的数据。
「那将会耗尽。」他在一次技术会议上的演讲中说道。
奥特曼先生曾近距离观察过这一现象。
在 OpenAI,研究人员多年来一直在收集数据、清理数据并将其输入到大量文本中来训练公司的语言模型。他们挖掘了计算机代码存储库 GitHub,清理了国际象棋走法数据库,并从 Quizlet 网站上提取了描述高中考试和家庭作业的数据。
八位了解该公司的人士表示,到 2021 年底,这些供应已耗尽,但他们未获授权公开发言。
OpenAI 迫切需要更多数据来开发其下一代人工智能模型 GPT-4。
知情人士称,员工们因此讨论了转录播客、有声读物和 YouTube 视频的问题。他们讨论了使用人工智能系统从头开始创建数据。他们还考虑收购收集了大量数字数据的初创企业。
六位人士表示,OpenAI 最终开发出了语音识别工具 Whisper,用于转录 YouTube 视频和播客。但 YouTube 不仅禁止人们将其视频用于独立应用程序,还禁止人们通过任何自动化方式(例如机器人、僵尸网络或抓取工具)访问其视频。
知情人士称,OpenAI 员工知道他们正在涉入法律灰色地带,但相信用视频训练人工智能是合理使用。
OpenAI 总裁布罗克曼先生在一份研究论文中被列为Whisper 的创建者。
两位知情人士称,他亲自帮助收集 YouTube 视频并将其输入到该技术中。
布罗克曼先生将置评请求转给了 OpenAI,该公司表示它使用众多来源的数据。
去年,OpenAI 发布了 GPT-4,它借鉴了 Whisper 转录的超过 100 万小时的 YouTube 视频。 Brockman 先生领导的团队开发了 GPT-4。
两位了解这两家公司的人士表示,一些谷歌员工知道 OpenAI 已经收集了 YouTube 视频作为数据。但知情人士称,他们并没有阻止 OpenAI,因为谷歌还使用 YouTube 视频的文字记录来训练其人工智能模型。这种做法可能侵犯了 YouTube 创作者的版权。
知情人士表示,因此,如果谷歌在 OpenAI 上大惊小怪,公众可能会对其自己的方法提出强烈抗议。
谷歌发言人马特·布莱恩特表示,该公司对 OpenAI 的做法一无所知,并禁止未经授权抓取或下载 YouTube 内容。他说,当谷歌有明确的法律或技术依据时,就会采取行动。
谷歌的规则允许其利用 YouTube 用户数据为该视频平台开发新功能。但目前尚不清楚谷歌是否可以利用 YouTube 数据构建视频平台之外的商业服务,例如聊天机器人。
Berger Singerman 律师事务所的知识产权律师杰弗里·洛滕伯格 (Geoffrey Lottenberg) 表示,谷歌对于 YouTube 视频记录可以做什么、不能做什么的说法含糊其辞。
他说:这些数据是否可以用于新的商业服务,还有待解释,并可能引发诉讼。
2022 年末,在 OpenAI 发布 ChatGPT 并掀起全行业的追赶竞赛后,谷歌研究人员和工程师讨论了利用其他用户数据。人们的 Google 文档和其他免费 Google 应用程序中包含数十亿字。
但三名了解谷歌做法的人士表示,该公司的隐私限制限制了他们使用这些数据的方式。
据隐私团队的两名成员和《纽约时报》看到的一份内部消息称,谷歌法律部门于 6 月要求隐私团队起草措辞,以扩大该公司可以使用消费者数据的用途。
员工被告知,谷歌希望将人们在谷歌文档、谷歌表格和相关应用程序中公开的内容用于一系列人工智能产品。员工表示,他们不知道公司之前是否曾使用此类数据训练过人工智能。
当时,谷歌的隐私政策称,该公司只能使用公开信息来帮助训练谷歌的语言模型并构建谷歌翻译等功能。
隐私团队编写了新条款,以便谷歌可以利用其人工智能模型并构建谷歌翻译、巴德和云人工智能功能等产品和功能的数据,这是更广泛的人工智能技术集合。
「这里的最终目标是什么?」隐私团队的一名成员在内部消息中问道。 「我们要走多远?」
工们表示,该团队被特别告知要在 7 月 4 日周末发布新条款,因为当时人们通常都在关注假期。修订后的政策于 7 月 1 日长周末开始时首次推出。
两名隐私团队成员表示,今年 8 月,他们向管理人员施压,询问谷歌是否可以开始使用免费消费者版本的 Google Docs、Google Sheets 和 Google Slides 中的数据。
他们说,他们没有得到明确的答案。
布莱恩特表示,隐私政策的变更是为了清楚起见,谷歌不会在未经用户明确许可的情况下,使用谷歌文档或相关应用程序中的信息来训练语言模型,他指的是一项允许用户测试实验性语言模型的自愿计划。
「我们没有根据这种语言变化开始对其他类型的数据进行培训。」他说。
Meta 上的争论
Meta 首席执行官马克·扎克伯格 (Mark Zuckerberg) 已投资人工智能多年,但当 OpenAI 在 2022 年发布 ChatGPT 时,他突然发现自己落后了。
他立即推动赶上并超越 ChatGPT,彻夜打电话给高管和工程师,推动他们开发三名现任和前任员工表示,他们没有被授权讨论机密对话。
但到去年初,Meta 遇到了与其竞争对手相同的障碍:没有足够的数据。
Meta 的生成人工智能副总裁 Ahmad Al-Dahle 告诉高管,根据内部会议的记录,他的团队几乎使用了互联网上所有可用的英语书籍、论文、诗歌和新闻文章来开发模型。
Al-Dahle 先生告诉同事,除非获得更多数据,否则 Meta 无法与 ChatGPT 相匹配。 2023 年 3 月和 4 月,该公司的一些业务开发领导、工程师和律师几乎每天都会开会来解决该问题。
一些人争论是否要支付每本书 10 美元才能获得新书的完全许可权。录音显示,他们讨论了收购西蒙与舒斯特出版社,该公司出版了斯蒂芬·金等作家的作品。
他们还谈到了如何未经许可从互联网上总结书籍、论文和其他作品,并讨论如何吸收更多内容,即使这意味着面临诉讼。录音显示,一名律师就从艺术家手中夺取知识产权提出了道德担忧,但遭到了沉默。
员工们表示,扎克伯格要求找到解决方案。
「马克在产品中寻找的功能正是我们目前无法提供的。」一位工程师说道。
两名员工表示,尽管 Meta 运营着庞大的社交网络,但它并没有大量的用户帖子可供使用。他们表示,许多 Facebook 用户已经删除了之前的帖子,而且该平台并不是人们撰写文章类型内容的地方。
Meta 还受到2018 年与选民分析公司 Cambridge Analytica 共享用户数据丑闻后推出的隐私变化的限制。
扎克伯格在最近的一次投资者电话会议上表示,Facebook 和 Instagram 上数十亿公开分享的视频和照片比 Common Crawl 数据集还要多。
在录音讨论中,Meta 高管谈到了他们如何在非洲聘请承包商来汇总小说和非小说的摘要。
一位经理在一次会议上表示,摘要中包含受版权保护的内容,「因为我们无法不收集这些内容」。
Meta 的高管表示,OpenAI 似乎未经许可使用了受版权保护的材料。根据录音,他们表示,Meta 需要很长时间才能与出版商、艺术家、音乐家和新闻业谈判许可。
「唯一阻碍我们达到 ChatGPT 水平的因素就是数据量。」全球合作和内容副总裁尼克·格鲁丁 (Nick Grudin) 在一次会议上表示。
他补充说,OpenAI 似乎正在采用受版权保护的材料,而 Meta 可以遵循这一市场先例。
录音显示,Meta 的高管同意参考 2015 年涉及作家协会诉谷歌的法院判决。在这种情况下,谷歌被允许对在线数据库中的书籍进行扫描、数字化和编目,理由是它仅在网上复制了作品的片段,并对原件进行了改造,从而使其合理使用。
Meta 的律师在会议上表示,使用数据训练人工智能系统同样应该属于合理使用。
录音显示,至少有两名员工对使用知识产权以及不公平或根本不向作者和其他艺术家支付报酬表示担忧。
一名员工讲述了与 Meta 首席产品官克里斯·考克斯 (Chris Cox) 等高级管理人员就版权数据进行的单独讨论,并表示那次会议上没有人考虑使用人们的创意作品的道德问题。
合成数据
OpenAI 的 Altman 先生制定了一个计划来应对迫在眉睫的数据短缺问题。
他在五月的会议上表示,像他这样的公司最终将利用人工智能生成的文本(也称为合成数据)来训练他们的人工智能。
奥特曼和其他人认为,由于人工智能模型可以生成类似人类的文本,因此系统可以创建额外的数据来开发更好的自身版本。这将帮助开发人员构建日益强大的技术并减少对受版权保护的数据的依赖。
「只要你能够跨越合成数据事件范围,即模型足够智能,能够生成良好的合成数据,一切都会好起来的。」奥尔特曼先生说。
人工智能研究人员多年来一直在探索合成数据。但构建一个能够自我训练的人工智能系统说起来容易做起来难。从自己的输出中学习的人工智能模型可能会陷入一个循环,它们会强化自己的怪癖、错误和局限性。
「这些系统所需的数据就像穿越丛林的道路。」前 OpenAI 研究员、现在不列颠哥伦比亚大学教授计算机科学的杰夫·克鲁恩 (Jeff Clune) 说。 「如果他们只根据合成数据进行训练,他们可能会在丛林中迷路。」
为了解决这个问题,OpenAI 和其他公司正在研究两种不同的人工智能模型如何协同工作来生成更有用和更可靠的合成数据。一个系统产生数据,而第二个系统则判断信息以区分好坏。研究人员对于这种方法是否有效存在分歧。
尽管如此,人工智能高管仍在快速前进。
「应该没问题。」奥特曼先生在会议上说。
版权声明
本站所有文章来源于本站原创或网络,如有侵权请联系删除。文章观点并不代表本站观点,请网友自行判断,如涉及投资、理财请谨慎应对!
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。