作者:Lakshmi Varanasi
多年来,OpenAI、Meta 和 Google 等科技公司一直专注于积累大量数据,假设更多的训练材料会产生更智能、更强大的模型。
现在,人工智能领导者正在重新思考如何训练大型语言模型的传统智慧。
对训练数据的关注源于研究表明,变压器(大型语言模型背后的神经网络)与给定的数据量具有一对一的关系。Transformer 模型“与给定的数据量和计算量呈线性关系”亚历克斯·沃伊卡穆罕默德·本·扎耶德人工智能大学的顾问此前告诉《商业内幕》。
然而,高管们开始担心这种方法只能走这么远,他们正在探索推进技术的替代方案。
据科技通讯 Command Line 报道,Scale AI 首席执行官 Alexandr Wang 在本周的脑谷会议上表示,投入人工智能的资金很大程度上取决于这种缩放法则“将成立”的想法。现在这是“业界最大的问题”。
一些高管表示,这种方法的问题在于有点盲目。“毫无疑问,如果你在模型上投入更多的计算,如果你让模型更大,它会变得更好,”艾丹·戈麦斯Cohere 首席执行官在 20VC 播客上表示。“这有点像是改进模型最值得信赖的方法。但它也是最愚蠢的。”
戈麦斯的拥护者更小、更高效的模型,这些产品因其成本效益而获得行业支持。
其他人则担心这种方法无法实现通用人工智能——人工智能的一种理论形式,可以匹配或超越人类智能——尽管世界上许多最大的人工智能公司都指望它。
大型语言模型的训练只是为了“根据前一组标记预测下一个标记”理查德·索彻前 Salesforce 高管兼人工智能搜索引擎首席执行官友网,告诉商业内幕。他说,训练它们的更有效方法是“强制”这些模型将问题转化为计算机代码,并根据该代码的输出生成答案。这将减少定量问题中的幻觉并增强他们的能力。
然而,并非所有行业领导者都相信人工智能已经遇到了规模扩张的障碍。
微软首席技术官凯文·斯科特 (Kevin Scott) 在 7 月份接受采访时表示:“不管其他人怎么想,我们的规模扩张并没有导致边际回报递减。”红杉资本的培训数据播客。
OpenAI 等公司也在寻求改进现有的法学硕士。
OpenAI 的 o19 月份发布的,仍然依赖于 Socher 所指的代币预测机制。尽管如此,该模型还是专门用于更好地处理定量问题,包括编码和数学等领域,与被认为更通用的模型 ChatGPT 相比。
o1 和 ChatGPT 之间的部分区别在于o1 花费更多时间进行推理或在回答问题之前“思考”。
“总而言之,如果我们要拟人化,gpt-4 就像你的超级万事通朋友,当你问他们一个问题时,他开始谈论意识流,迫使你筛选他们所说的内容宝石,”Uber 前工程师主管、谷歌前首席软件工程师瓦利德·卡杜斯 (Waleed Kadous) 在博客文章中写道。“o1 更像是一个朋友,他会仔细听你说的话,挠挠下巴一会儿,然后分享一些一针见血的句子。”
然而,o1 的权衡之一是它需要更多的计算能力,从而使其速度更慢且成本更高。 人工分析,一个独立的AI基准测试网站。