OpenAI正与数十家出版商洽谈内容许可 年费用低至100万美元

  ·OpenAI表示,正在与数十家出版商洽谈达成文章授权协议。消息人士称,OpenAI每年向一些媒体公司提供100万至500万美元的费用以获得受版权保护的新闻文章,训练其大语言模型。

  1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。

  “我们正在与许多出版商进行多次谈判和讨论。他们很活跃,非常积极,目前进展顺利。”OpenAI知识产权和内容主管汤姆·罗宾(Tom Rubin)在接受彭博社采访时表示,“你看到了已经宣布的交易,未来还会有更多。”

  OpenAI最近与新闻出版巨头施普林格出版集团 (Axel Springer) 签署了一项多年期许可协议,这是该公司与此类出版商的首次合作。施普林格是一家总部位于德国的跨国大众媒体公司,旗下拥有Business Insider和Politico等品牌。该交易的财务条款从未公开,但据The Information援引OpenAI两位高管的消息称,交易金额在数千万美元左右。

  7月,OpenAI宣布与美联社达成一项类似协议,金额未公开。这些交易对于OpenAI的未来至关重要,因为它正在平衡构建模型所需数据的需求与对数据来源​​日益严格的审查。

  实际上,这些交易似乎与前几年类似。谷歌在2020年宣布将总共投资10亿美元与新闻机构合作。在新法律的压力下,谷歌最近还同意每年向加拿大出版商支付总计1亿美元,以换取其文章链接。

  随着新闻出版商与人工智能公司签订协议,用新闻文章训练其模型,OpenAI等企业愿意为受版权保护信息支付的价格逐渐浮出水面。The Information援引匿名消息人士称,OpenAI每年向一些媒体公司提供100万至500万美元的费用,以使用其新闻文章用于训练大型语言模型。即使对于小型出版商来说,这个数额也很小,这可能会让OpenAI难以达成交易。

  与此同时,苹果公司也正在参与开发生成式人工智能的竞赛,并与拥有《Vogue》和《纽约客》的康迪纳仕(Condnast)、拥有Daily Beast的NBC新闻和IAC等出版商签订了价值约5000万美元的协议。

  这些行动背后的逻辑都在于,当今大型语言模型训练的大量数据资源来自于互联网。然而就训练生成式人工智能而言,似乎已经难有更多的免费午餐。

  一方面,《纽约时报》、CNN、路透社和The Verge的母公司Vox Media最近阻止了OpenAI的GPT爬虫访问数据。另一方面,一些组织认为基于其数据进行训练构成版权侵权。

  最近,《纽约时报》在美国联邦法院起诉OpenAI和微软,指控这两家科技公司非法使用“数百万篇”受《纽约时报》版权保护的文章,帮助开发ChatGPT和必应等工具背后的人工智能模型。这是一系列诉讼中最新的一起,也是关注度最高的一起,这些诉讼指控各种科技和人工智能公司侵犯了媒体公司、摄影网站、图书作者和艺术家的知识产权。

(责任编辑:AK007)