ChatGPT，这台学习的永动机，何时“耗尽”人类的语言

日期：2023-02-07 12:02 来源：互联网

ChatGPT是个通才，可以与各行各业的人们对话，因为它用来训练的语言，来自整个网络和人类所有的知识宝库，并且建立在一个看似无所不包的知识体系之上。

无论是ChatGPT之类的聊天机器人，还是其他的内容生成技术与应用，背后都是日益强大的学习和训练的计算系统，它们被称为大型语言模型 (LLM) ，动辄设置成千上万亿个参数。机器很难像人类一样通过推理来进行有效的学习，所以机器学习的能力很大程度上依赖于海量的数据。

但是，人类的语言是有限的，当计算机建立起越来越巨大的算力和强大的算法，自然语言作为“原料”供应，是不是终有一天像石油一样，被人类开采枯竭？当前的机器学习模型依赖于不断增长的巨大数据集，其发展趋势是否可能会放缓？

是的，语言数据资源是有限的，高质量的语言数据更是有限的。

来自阿伯丁大学、麻省理工大学、图宾根大学的Pablo Villalobos等6位计算机科学家，近日发布了一篇论文，名为《我们会用完数据吗？机器学习中数据集缩放的局限性分析》。他们开发的概率模型，估算了2022年至2100年之间可用的语言和视觉数据的总量，估计了语言和视觉模型训练数据集规模的演变趋势，试图发现由于可用数据耗尽而导致的趋势的极限。

目前绝大多数存量数据是用户生成的，存储在社交媒体平台、博客、论坛等。有三个因素决定了在一个给定的时间段内产生多少内容:人口数量、互联网渗透率、每个互联网用户产生的平均数据量。

互联网上的大部分文本数据对训练大型语言模型（LLM）都没有用，专业人士通常只使用高质量的数据来训练模型，因为这是他们希望模型学习和效仿的语言类型。常见的高质量数据的来源是书籍、新闻文章、科学论文、维基百科和过滤后的网页内容。这些数据源的一个共同特性是，它们经过了质量和有用性的筛选。例如，在新闻、科学文章或开源代码项目中，有用性必须由专业标准(如同行评议)的筛选产生。

他们发现，语言数据枯竭情况比视觉数据严峻得多。

语言和视觉模型的数据存量的增长速度比训练数据集的大小慢得多，所以如果按照目前的趋势继续下去，数据集最终会因为数据枯竭而停止增长。

对于语言模型来说，数据耗尽的情况将在2030年到2040年之间发生。语言大模型的训练数据主要来自互联网，现在的模型越做越大，已经把网上能收集到的网页数据用的差不多了，或者说随着算力投入的进一步增加，基本上能够把网络上收集到的数据全部用尽。

（责任编辑：AK007）

ChatGPT，这台学习的永动机，何时“耗尽”人类的语言

相关推荐