AIGC概念持续高热,与大模型训练有关的数据要素来源也成为业内关注的焦点之一。近日,因在互动平台发表的一条“正在与大模型厂商购买中文数据进行合作磋商”回复,中文在线(300364.SZ)再次收到深交所关注函。
对于大模型厂商购买公司中文数据是否属实,以及出售中文数据的版权问题,中文在线证券部相关人士对财联社记者表示,一切以回复函为准。
今日午间,中文在线收到深交所关注函,要求公司详细说明模型公司向公司采买数据相关业务的具体合作方式、定价模式,相关业务合作是否具有可持续、是否会对公司短期业绩产生较大影响,并充分提示合作厂商数量、数据采购规模、数据采购价格不及预期的风险。
财联社记者了解到,大模型的训练数据通常来自于网络爬虫、公开数据集、内部数据等。其中,内部数据通常为企业或组织内部的数据,例如客户反馈、用户日志等,可以作为模型训练的数据来源。
兴证通信研报认为,随着近期华为、阿里、京东、昆仑万维等国内大模型陆续推出,未来国内“大、小”模型将会越来越多,而想要给具体行业赋能,成为某一个领域的专家,就必须使用对应领域的专业数据来训练,而给这些模型投喂的数据资源是有限的,未来真正有价值量和数字时代定价权的是“数据要素”。
但向大模型厂商出售内部数据,对内容公司来说并非“一本万利”,版权、用户隐私等都可能存在潜在“风险”。
“出售与文学内容相关的数据原则上需要作家和同意或者授权。”一位数字阅读行业人士对财联社记者表示。
该人士认为,目前的内容平台中,中文内容质量良莠不齐,还可能存在错误、重复、噪声等问题,需要对数据进行评估和筛选,以确保数据的质量和适用性。同时,还需要考虑数据的版权和使用限制等问题。
另外值得关注的是,中文在线3月24日接受机构调研时曾表示,公司目前已上线3款AIGC相关产品,分别为AI主播、AI绘画和AI文字辅助创作,其中AI主播已在有声书生产中应用,AI文字辅助创作功能已在17K小说网上线,AI绘画已在海外产品Chapters中使用。另外,公司也在研发推动更多AIGC产品落地,根据公司自有IP打造的国内首个科幻主题元宇宙RESTART(重启宇宙)已经进行首期功能模块上线,公司海外产品Chapters和MyEscape也已在做接入ChatGPT测试。
对此,深交所关注函中也要求公司对在AIGC领域开展相关布局的具体内容、已上线3款AIGC产品的具体情况,并结合AIGC业务研发投入、研发进度、技术人员配备情况、核心技术掌握情况、产品落地可行性、市场需求情况等,量化说明公司在AIGC方面的近期业务开展情况是否会对公司经营业绩产生较大影响,并充分提示AIGC相关产品在商业化、技术、运营等方面的风险展开详细说明。(来源:财联社)