剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等

百康3个月前科技65

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

这两天,推特上一个任务悬赏火得一塌糊涂。

一家AI公司提供25万美金(折合人民币约167万元),悬赏什么任务能让模型越大、性能反而越差。

评论区里已经讨论得热火朝天了。

不过这事儿倒也不是单纯整活,而是为了进一步探索大模型。

毕竟,这两年大家越发意识到,AI模型不能单纯比“大”。

一方面,随着模型的规模越来越大,训练付出的成本开始呈现指数型增长;

另一方面,模型性能的提升也已经逐渐到达瓶颈期,哪怕想要让误差再下降1%,都需要更多的数据集增量和计算增量。

比如对于Transformer而言,交叉熵损失想要从3.4奈特降低到2.8奈特,就需要原本10倍量的训练数据。

针对这些问题,AI学者们已经在从各种方向上找解决路子了。

Meta斯坦福的学者们,最近想到了从数据集上切入。

他们提出,对数据集进行知识蒸馏,使得数据集规模虽小,但还能保持模型性能不下降。

实验验证,在剪掉ImageNet 20%的数据量后,ResNets表现和使用原本数据时的正确率相差不大。

研究人员表示,这也为AGI实现找出了一条新路子。

超大数据集的效率并不高

本文提出的办法,其实就是对原本的数据集进行优化精简。

研究人员表示,过去许多方法都表明,许多训练示例是高度冗余的,理论上可以把数据集“剪”得更小。

而且最近也有研究提出了一些指标,可以根据训练示例的难度或重要性对它们进行排序,并通过保留其中一些难度高的示例,就能完成数据修剪。

基于前人的发现和研究,此次学者们进一步提出了一些可具体操作的方法。

首先,他们提出了一种数据分析方法,可以让模型只学习部分数据,就能实现同等的性能。

通过数据分析,研究人员初步得出结论:

一个数据集怎样修剪效果最好?这和它本身的规模有关。

初始数据量越多,越应该保留难度高的示例;

初始数据量越少,则应该保留难度低的示例。

而在保留困难示例进行数据修剪后,模型和数据规模的对应关系,可以打破幂律分布。

常被提起的二八定律就是基于幂律提出的。

即20%的数据会影响80%的结果。

同时在此情况下,还能找到一个处于帕累托最优的下的极值。

这里所说的帕累托最优是指资源分配的一种理想状态。

它假设固定有一群人和可分配的资源,从一种分配状态调整到另一种分配状态,在没有使任何一个人变差的前提下,至少使得一个人变得更好。

在本文中,调整分配状态即可理解为,修剪多少比例的数据集。

然后,研究人员进行了实验来验证这一理论。

从实验结果来看,当数据集越大,修剪后的效果就越明显。

在SVHN、CIFAR-10、ImageNet几个数据集上,ResNet的错误率总体和数据集修剪规模呈反比。

在ImageNet上可以看到,数据集规模保留80%的情况下,和原本数据集训练下的错误率基本相同。

这一曲线也逼近了帕累托最优。

接下来,研究人员聚焦在ImageNet上,对10种不同情况进行了大规模基准测试。

结果表明,随机修剪以及一些修剪指标,在ImageNet上的表现并不够好。

所以更进一步,研究人员还提出了一种自监督方法来修剪数据。

也就是知识蒸馏(教师学生模型),这是模型压缩的一种常见方法。

结果显示,在自监督方法下,它在找数据集中简单/困难示例上的表现都还不错。

使用自监督方法修剪数据后,正确率明显提高(图C中浅蓝色线)。

还存在一些问题

不过在论文中,研究人员也提到,虽然通过如上方法可以在不牺牲性能的情况下修剪数据集,但是有些问题仍旧值得关注。

比如数据集缩小后,想要训练出同等性能的模型,需要的时间可能会更长。

因此,在进行数据集修剪时,应该平衡缩减规模和训练增长时间两方面因素。

与此同时,对数据集进行修剪,势必会丧失一些群体的样本,由此也可能造成模型在某一个方面出现弊端。

在这方面会容易引起道德伦理方面的问题。

研究团队

本文作者之一Surya Ganguli,是量子神经网络科学家。

他现在是斯坦福大学应用物理学教授、谷歌客座研究教授。

此前,他在斯坦福读本科期间,同时学习了计算机科学、数学和物理三个专业,之后拿下了电气工程与计算机科学硕士学位。

论文地址:

https://arxiv.org/abs/2206.14486

相关文章

奇安信安全防护软件冬奥版完成阶段使命

奇安信安全防护软件冬奥版完成阶段使命

奇安信集团作为北京2022冬奥会和冬残奥会网络安全官方赞助商,兑现了冬奥网络安全“零事故”运行的承诺。与此同时,奇安信安全防护软件作为冬奥志愿者的终端防护软件,也已经圆满完成它的阶段使命,也迎来了安全...

iPhone 14全球售价超详细汇总!国行版确实有点“香”

iPhone 14全球售价超详细汇总!国行版确实有点“香”

  9月8日凌晨,苹果举办“超前瞻”(Far Out)发布会,苹果CEO库克带着公司的最新力作——iPhone 14系列闪亮登场,成为这场期待已久的“科技春晚”最精彩的节目。此次发布的iPhone 1...

韦布望远镜发布首张火星照片

韦布望远镜发布首张火星照片

左边:目前的火星地图。右上:同一区域的红外图像,显示了火山口和灰尘层等表面特征。右下:显示火星温度的红外图像。图片来源:NASA/ESA官网科技日报北京9月20日电 (记者刘霞)据英国《新科学家》杂志...

成本上升叠加电商需求下降,亚马逊比想象中更抗跌?

成本上升叠加电商需求下降,亚马逊比想象中更抗跌?

摘要:由于成本上升和电子商务需求下降,亚马逊的核心零售部门在即将到来的未来可能会举步维艰。AWS 继续成为云服务的领导者,并将因行业高速增长和需求而繁荣。Prime Video 和 Music 发展迅...

“纯净”iOS将成为历史吗?iOS 16或将成为广告最多的苹果系统

对于安卓智能手机而言,偶尔使用过程中弹出广告已经不是什么新奇事情了,这也是手机厂商营销的一个重要手段,不过在广告方面,苹果向来控制得挺好的,iOS系统更是审核严格,没经过审核的软件是无法安装的, 但是...

保险行业首次在元宇宙空间召开发布会:i云保打造“Z世代”普惠保险IP

先由衷感慨一下,我参加过很多金融产品发布会,还第一次像今天玩得这么high。i云保真是有颗“Z世代”的心,今天的发布会是他们联手网易瑶台在“元宇宙”空间开的,这也是保险行业首...

Roblox 宣布未来更新计划,新增化身动画、沉浸式广告功能

近日,在线游戏平台 Roblox 宣布了一项包含新功能的更新计划。其计划根据需要发布功能,使虚拟化身的面部表情更加丰富,同时 Roblox 宣布将从 2023 年开始在平台上...

200%的价格得到200%的性能,RTX 40系买吗?

200%的价格得到200%的性能,RTX 40系买吗?

作为全球GPU领域的领头者,英伟达的一举一动都让人无比关心,早前有传闻称英伟达最早会在9月份发布RTX 40系显卡,并且会在同一月对外发售,只是现在看来,九月份发布的时间倒是没错,就是发售时间恐怕有待...

高通发布可穿戴平台骁龙 W5 / W5+

高通发布可穿戴平台骁龙 W5 / W5+

驱动中国2022年7月20日消息今日,高通技术公司推出全新顶级可穿戴平台 —— 第一代骁龙 W5 + 可穿戴平台和骁龙 W5 可穿戴平台。全新平台旨在通过带来持久电池续航、顶级用户体验和轻薄创新设计,...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。