ChatGPT是个通才,可以与各行各业的人们对话,因为它用来训练的语言,来自整个网络和人类所有的知识宝库,并且建立在一个看似无所不包的知识体系之上。
无论是ChatGPT之类的聊天机器人,还是其他的内容生成技术与应用,背后都是日益强大的学习和训练的计算系统,它们被称为大型语言模型 (LLM) ,动辄设置成千上万亿个参数。机器很难像人类一样通过推理来进行有效的学习,所以机器学习的能力很大程度上依赖于海量的数据。
但是,人类的语言是有限的,当计算机建立起越来越巨大的算力和强大的算法,自然语言作为“原料”供应,是不是终有一天像石油一样,被人类开采枯竭?当前的机器学习模型依赖于不断增长的巨大数据集,其发展趋势是否可能会放缓?
是的,语言数据资源是有限的,高质量的语言数据更是有限的。
来自阿伯丁大学、麻省理工大学、图宾根大学的Pablo Villalobos等6位计算机科学家,近日发布了一篇论文,名为《我们会用完数据吗?机器学习中数据集缩放的局限性分析》。他们开发的概率模型,估算了2022年至2100年之间可用的语言和视觉数据的总量,估计了语言和视觉模型训练数据集规模的演变趋势,试图发现由于可用数据耗尽而导致的趋势的极限。
目前绝大多数存量数据是用户生成的,存储在社交媒体平台、博客、论坛等。有三个因素决定了在一个给定的时间段内产生多少内容:人口数量、互联网渗透率、每个互联网用户产生的平均数据量。
互联网上的大部分文本数据对训练大型语言模型(LLM)都没有用,专业人士通常只使用高质量的数据来训练模型,因为这是他们希望模型学习和效仿的语言类型。常见的高质量数据的来源是书籍、新闻文章、科学论文、维基百科和过滤后的网页内容。这些数据源的一个共同特性是,它们经过了质量和有用性的筛选。例如,在新闻、科学文章或开源代码项目中,有用性必须由专业标准(如同行评议)的筛选产生。
他们发现,语言数据枯竭情况比视觉数据严峻得多。
语言和视觉模型的数据存量的增长速度比训练数据集的大小慢得多,所以如果按照目前的趋势继续下去,数据集最终会因为数据枯竭而停止增长。
对于语言模型来说,数据耗尽的情况将在2030年到2040年之间发生。语言大模型的训练数据主要来自互联网,现在的模型越做越大,已经把网上能收集到的网页数据用的差不多了,或者说随着算力投入的进一步增加,基本上能够把网络上收集到的数据全部用尽。