吴恩达:AI是时候从大数据转向「小数据」了


【导读】AI大牛吴恩达不久前刚被检测出新冠阳性,许多网友都向他表达了早日康复的祝愿。令人振奋的是近日吴恩达发推文称:我现在几乎没有症状了,看起来病毒正在从我体中清除。新冠结果已由阳性转为阴性。

吴恩达:AI是时候从大数据转向「小数据」了的图1

如今,他的工作重心放在了Landing 上。这是一家专门面向制造业厂商数字化转型的初创公司,创立目标就是帮助制造业公司更快速、轻松地构建和部署人工智能系统。

对于传统企业来说,预训练好的模型都是基于公开数据,实际派不上用场。

但毕竟是传统企业,上哪儿收集海量的特定数据来支撑训练?

最近,吴恩达在接受IEEE Spectrum的一段专访中,讨论了人工智能领域下一个十年的风向,表达了“是时候从大数据转向小数据、优质数据”的观点。

或许我们能从中找到这个问题的答案。

吴恩达:AI是时候从大数据转向「小数据」了的图2

采访原文整理(节选)


IEEE Spectrum: 得益于越来越大的模型和数据集,深度学习在过去十年间取得了巨大的进步。一些人认为这是一个不可持续发展的轨迹。你同意吗?

吴: 这确实是个值得思考的问题。NLP领域已经有了基础模型(foundation model),并正在继续扩大规模。计算机视觉领域也有构建基础模型的潜力,就是在视频领域由于计算带宽(算力)和处理成本的限制还有待开发。虽然扩展深度学习算法的引擎已经运行了大约15年,但它还有足够的动力。不过,它只适用于某些问题,还有一系列场景需要小数据解决方案。

注:基础模型是Percy Liang和吴在斯坦福大学的一些朋友创造的一个术语,指的是在非常大的数据集上训练的巨大模型,这种模型可以针对特定的应用进行调整,例如GPT-3。

过去十年里,面向消费者的企业由于拥有大量用户群(有时甚至高达数十亿),因此获得了非常大的数据集得以开展深度学习。这给它们带来了不少经济价值,但我发现这种法则不适用于其他行业。

IEEE Spectrum:你前面提到,一些公司或机构只有少量数据可供使用。以数据为中心的人工智能如何帮助他们?

吴: 像很多视觉模型都是用数百万张图像构建的,我也曾经花3.5亿张图像搭建了一个人脸识别系统。但这种模型在只有50张图像的数据集上却没法运行。不过事实证明,如果你有 50个非常好的数据 ,你也可以做出有价值的东西,比如缺陷检查系统。在许多根本不存在巨型数据集的行业,我认为重点必须 从大数据转向优质数据 。有50个经过深思熟虑的实例就足以向神经网络解释你想要它学会什么。

IEEE Spectrum: 用50张图像训练一个模型的意思是在一个用大数据集训练好的现有模型上对其进行微调吗?还是说这是一个全新的模式,就从这个小数据集上学习?

吴: 我来讲一下 Landing AI 是做什么的吧。在给制造商提供暇疵检查服务时,我们一般就用带有我们自己风格的RetinaNet。它是一个预训练模型。话说过来,预训练只是难题的一小部分,更大的难题是提供一个工具让制造商能够选择正确的图像集(用于微调),并用一致的方式对图集进行标记。面对大数据集的应用时,我们的通常反应都是如果数据有噪音也没关系,所有数据照单全收,算法会对其进行平均(average over)。但是,如果我们能够开发出用来标记出数据不一致的地方的工具,为制造商提供一种非常有针对性的方法来提高数据质量,那这将是获得高性能系统的更有效方法。

就比如你现在你有10000张图像,其中30张属于一个类别,但这30张的标签不一致。我们要做的一件事就是构建工具 来吸引你注意到这个特殊的数据子集 ,使你能够快速重新对它们进行标记,从而提高模型性能。

吴恩达:AI是时候从大数据转向「小数据」了的图3

畸形的深度学习


传统观点认为,模型的参数越多,它可以完成的任务就越复杂,性能也越好。在机器学习中,参数是模型在进行预测时使用的内部配置变量,通过不同的参数可以对不同的问题进行拟合。

笔者不认同上述传统观点,或者说对超大模型路线持批判看法。

深度学习从业者大都有这样的困扰:
抱怨深度学习这畸形的研究发展路线,大公司才能玩得起sota,普通人连买张显卡都要承受几倍的溢价!

下一个模型究竟有多大?
  • 2018年,谷歌提出3亿参数BERT模型惊艳四座,将自然语言处理推向了一个前所未有的新高度

  • OpenAI在2019年初推出GPT-2,15亿参数

  • 英伟达威震天(Megatron-LM)83亿参数

  • 谷歌T5模型110亿参数

  • 微软图灵Turing-NLG模型170亿参数

  • 2020年GPT-3,1750亿参数,参数规模达到千亿级别,直逼人类神经元的数量

  • 2021浪潮「源1.0」,2457亿参数

  • 微软和英伟达联合发布MT-NLG,5300亿个参数

  • 谷歌推出了1.6万亿参数的Switch Transformer

  • 智源「悟道2.0」1.75万亿参数再次刷新万亿参数规模的记录

  • OpenAI寄予厚望的GPT-4预计将有大约100万亿个参数

  • .........


吴恩达:AI是时候从大数据转向「小数据」了的图4

好一副「百家争鸣」之势,大模型俨然成了是大势所趋,巨头们必争的高地!

大模型究竟是否是一条正确的道路?
未必!

当AI模型参数与日俱增,达到千亿量级,训练模型的可行性面临两大挑战:
  • 即使是最强大的GPU,也不再可能将模型参数拟合到单卡的显存中
  • 如果不特别注意优化算法、软件和硬件堆栈,那么超大计算会让训练时长变得不切实际

而现有的三大并行策略在计算效率方面存在妥协,难以做到鱼与熊掌兼得。

这些大模型从学术角度来看,都令人印象深刻,但造价同样令人印象深刻。

假设OpenAI在一组每秒可以进行28万亿次浮点运算的Nvidia V100 GPU上进行运算,那么单次训练的成本就会达到460万美元。一个拥有15万亿次算力的英伟达RTX 8000 GPU虽然便宜,但完成训练需要665年。

要处理如此大模型的参数,对处理器的算力要求必然增加,根据OpenAI最新的测算,训练一个大型AI模型的算力,从2012年开始计算已经翻了30万倍,MIT一项研究表明,对于一个过参数化(即参数数量比训练数据样本多)的AI模型,其算力需求在理想情况下,大于等于性能需求的4次方。

MT-NLG是一个比GPT-3大两倍的语言模型。在庞大的文本数据集上训练一个5300亿个参数模型,无疑需要庞大的基础设施。每GPU每秒需要达到113到126万亿次运算,微软和英伟达使用数 百台DGX-A100的GPU服务器 ,每台售价高达 19.9万美元 ,再加上网络设备、主机等成本,任何想要重复这个实验的人都必须 花费大约1亿美元 ,一般企业难以承受。

严谨地来看,哪些公司有业务例子可以证明在深度学习基础设备上花费1亿美元是合理的?或者1000万美元?如果设计出来,那这些模型是为谁而设计的呢?

当处理万亿字节规模的数据集时,存储成本也会迅速增加。OpenAI的GPT-3的训练数据集大小为45TB,足以填满90个500GB硬盘,在训练过程中需要每秒3.1423^23次浮点运算(FLOPS)。举一个极端的例子,根据CrowdStorage的数据,特斯拉自动驾驶团队积累的1.5千兆字节的视频片段在Azure中存储三个月的成本将超过6.75万美元。 

吴恩达:AI是时候从大数据转向「小数据」了的图5
 
对于预算较少的小企业来说,要想搞出最强大的人工智能模型是不可能的。
难怪有不少人发出疑问: 这到底是深度学习还是深度钱包?

巨头们为何热衷于大模型?


自从2018年谷歌推出BERT模型以来,语言模型做的越来越大,仿佛没有终点。短短几年,模型参数已经从最初的3亿,扩张到万亿规模。那么,这些AI巨头到底在争什么,大模型背后是怎样的畸形逻辑?

2021年,人工智能行业最大的新闻,就是头部企业的上市。但上市过程的一波三折,透露着很多艰难。光环褪去,行业已经形成共识:AI做不了颠覆式创新,还是要走产业+AI的路。上市是面子,业绩才是里子。

以“CV四小龙”为例,从财报看,虽发展多年,但收入结构方面,to G业务仍是营收主力。而在其他场景中,AI商业化并不乐观。

比如医疗AI的溃败:人们曾经对AI医疗抱有极大希望,巨头纷纷重金入局,但2021年,医疗AI遇到很多挫折:依图把医疗板块卖给深睿医疗,IBM被曝将出售IBM Watson Health,而谷歌将关闭其医疗健康项目Google Health。

在其他场景中,也有同样的难题。AI商业化为什么难?上有芯片等高利润、标准化产品提供商,下有掌握场景、议价权强势的客户和合作伙伴,AI公司在中间,人力成本昂贵、项目交付辛苦、议价权却不高,很容易做成“大外包”——商业模式始终是AI的困局。

头部AI公司最喜欢的是这样的机会: 有难度、难度大、但是能做到,而且标准化程度较高。而现实是:往往要么过难无法做到,要么难度没有高到只有头部AI公司才能做到,要么需要定制开发。

AI要跑通商业模式,必须找到一个巧妙的平衡地带——“大模型”就是在这样的背景下火起来的。

回顾2021年,我们不难看到,头部AI公司陆续推出大模型、大装置。大模型动辄千亿万亿的参数量,让大部分公司望而却步,成为了头部AI企业的专属。

AI模型规模越做越大,训练成本高居不下,小公司即使想用也往往有心无力。我们不禁要问:未来的AI创新真的只能靠巨头了吗?

利用最新技术的成本不断上升,可能会将创新留给最大的公司和租赁工具和算力的公司,从而减缓创新的步伐。

当只有少数几个地方才能研究这些大模型的内部结构时,出现创造性新成果的几率一定会大大降低

专门研究人工智能和语言的斯坦福大学教授克里斯·曼宁说:在十年前,他的实验室有足够的计算资源来探索任何项目,一个努力工作的博士生就可能会做出最先进的工作,而现在,这个窗口已经关闭了。

吴恩达:AI是时候从大数据转向「小数据」了的图6

大模型路线,吃力不讨好


笔者身处科技圈,有一个明显的感受:2021年大模型的会议与讨论越来越多。预训练大模型本身的优势我们在很多新闻中都感受到了。然而打造大模型并不是一件轻松容易的事情,需要耗费大量的数据、算力资源等,大模型的意义是为了让算法模型集中化,但是市场中有条件的企业和机构都开始耗费大量资源自研大模型。大模型算法模型的集中化优势,经过这些机构对集中资源的分化,又有种烟囱式的割裂。

一些机构和产业界对大模型的参与到角逐,使得其呈现出一种宣传炫技般的画面感受。这样的发展模式很可能会给行业带来一些不好的影响:

  • 大模型成为一些机构和企业秀肌肉的军备竞赛,开始比拼各自参数集数量级。你百亿级,我就千亿级。数据集本身就有限,标榜自己的数据集越大,水分可能就比较多,而在真实落地使用的情况方面,也并不不一定理想


  • 算力资源和训练时间消耗过大,且也只限于部分行业的部分问题,普适性差


  • 国内预训练模型的玩家们可用的中文数据集有限,就是我们知道的几种主流常用数据来源。在有限的数据集里,大家使用的数据未免重复,而因此研究出来的大模型能力就比较接近


  • 大模型是否优秀,不仅依赖数据的精度与网络结构,也是对其与行业结合软硬件协同能力的比拼。单纯只强调低头研发高参数集、强算力模型等的方向,轻视一些与行业的协同二次调试等问题,就会陷入闭门造车的局面,限制了落地的路,走不远


  • 一些预训练大模型经过极致化(数据、模型、算力)的发展后,也有可能面临小众、泛用性差的情形,比如一些高校研发的预训练大模型只能在小众的学术圈子里使用,无法工程化使用,最终沦为一次性的模型,浪费大量资源


吴恩达:AI是时候从大数据转向「小数据」了的图7


更令人担忧的是:通常认为,模型的参数越多,它可以完成的任务就越复杂,性能也越好。但是越来越多的研究对这个概念提出了质疑。也就是说 参数越多,性能未必就好
 
例如,谷歌的研究人员开发了一个参数量远小于GPT-3的模型——微调语言网络 (fine-tuned language net, FLAN),并且在许多有难度的基准测试中性能都大幅超过 GPT-3。

吴恩达:AI是时候从大数据转向「小数据」了的图8
https://arxiv.org/pdf/2109.01652.pdf

与 GPT-3 的 1750 亿个参数相比,FLAN 拥有 1370 亿个参数,在研究人员对其进行测试的25项任务中,有19项超过了zero-shot175B GPT-3。FLAN甚至在ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze上的表现都大大超过了few-shot GPT-3。

写在最后


如果深度学习沿着「模型巨大化」的路走下去,路可能会越走越窄。收益递减、成本增加、复杂度增加,这些可以预见的问题,可能会在不远的未来,把自己逼进死胡同。
 
这就是人工智能未来的样子吗?
希望不是!

在接受IEEE Spectrum的采访中,吴恩达探讨了人工智能领域 下一个十年的风向,并提出了是时候从大数据转向小数据、优质数据的观点。
 
吴恩达:AI是时候从大数据转向「小数据」了的图9
 
关于小数据,吴恩达认为,「它同样能够有威力,只要拥有50个好数据(examples),就足以向神经网络解释你想让它学习什么。」

吴恩达表示,「过去十年,代码——神经网络的架构已经非常成熟。保持神经网络架构固定,寻找改进数据的方法,才会更有效率。」

以数据为中心的AI是一个系统的学科,旨在将关注点放在构建AI系统所需的数据上。对于AI系统来说,你必须用代码实现一些算法,然后在数据集上进行训练。

过去十年里,人们一直在遵循「下载数据集,改进代码」这一范式。多亏了这种范式,深度学习获得了巨大的成功。而目前,对于许多实际应用来说,现在更有效的方法是固定神经网络架构,找到改进数据的方法。
 
吴恩达:AI是时候从大数据转向「小数据」了的图10
 
吴恩达最后总结道:

在过去十年中,人工智能的最大转变是向深度学习的转变,未来十年,我认为会转向以数据为中心。
 
随着神经网络架构的成熟,对于许多实际应用来说,瓶颈将是我们能否有效地获取让模型运行良好所需的数据。
 
而以数据为中心的人工智能运动在整个社区拥有巨大的能量和动力。我希望更多的研究人员和开发人员能够加入。

与其追逐万亿参数的巨大模型,不如把更多精力放在构建解决现实世界问题的、实用且高效的解决,不更好么?
登录后免费查看全文
立即登录
App下载
技术邻APP
工程师必备
  • 项目客服
  • 培训客服
  • 平台客服

TOP