作者:Jason Dorrier
人工智能行业痴迷于规模。更大的算法。更多的数据。在未来几年里,可能消耗足够电力来驱动整个城市扩张的数据中心。
这种无法满足的胃口就是为什么OpenAI——预计将实现盈利收入达到37亿美元但今年亏损50亿美元——只是宣布已筹集到了资金额外获得了66亿美元的资金,并开设了40亿美元的信贷额度。
如此令人震惊的数字让人很容易忘记规模并非一切。
一些研究人员,尤其是那些资源较少的研究人员,正力求用更少的资源做更多的事情。AI扩展将继续但是随着它们的增长,这些算法也会变得更加高效。
上周,艾伦人工智能研究所(Ai2)的研究人员发布了一组新的开源多模态模型,这些模型与最先进的模型如OpenAI的GPT-4相媲美——但规模小一个数量级。名为Molmo的系列模型参数量从10亿到720亿不等。相比之下,GPT-4估计拥有超过一万亿的参数。
AI2表示它是通过注重数据质量而非数量来实现这一成就的。
训练了数十亿示例的算法,如GPT-4,表现出极其强大的能力。但它们也摄入了大量的低质量信息。所有这些噪音消耗了宝贵的计算资源。
为了建立他们的新的多模态模型,AI2汇集了现有大型语言模型和视觉编码器的基础。然后他们编译了一个更集中、质量更高的数据集,包含大约70万张图片和130万条描述,用于训练具有视觉能力的新模型。这听起来很多,但其实数量级上是一千分之一的数据比专有的多模态模型使用的要少。
团队没有让标注人员撰写字幕,而是请他们为每张图片录制60到90秒的口头描述,回答一系列问题。然后,他们将这些描述转录成文字——这些描述通常跨越好几页——并使用其他大型语言模型进行清理、精简和标准化处理。他们发现,这一简单的转变——从书面标注变为口头描述——在几乎不增加额外努力的情况下提供了更多的细节。
结果令人印象深刻。
根据一项技术论文描述了该工作,团队最大的模型Molmo 72B在包括OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro在内的最先进的闭源模型上,在11个学术基准测试以及用户偏好方面表现出与之相当或更优的性能。即使是最小的Molmo模型,其大小仅为最大模型的十分之一,也与当前最先进的模型相比具有优势。
Molmo还可以指向它在图像中识别出来的事物。这种技能可能帮助开发人员构建能够识别网页上的按钮或字段的AI代理,以便处理如预订餐厅等任务。或者它可以帮助机器人更好地识别和与现实世界中的物体互动。
Ai2首席执行官阿里·法哈迪承认,基准测试能告诉我们多少信息是有争议的。但我们可以使用它们来进行粗略的模型间比较。
“人们会在十几个不同的基准上进行评估。我不喜欢这种科学上的游戏……但是我不得不给人们一个数字。”法哈蒂说在西雅图的发布活动上。“我们最大的模型是一个规模较小的模型,72B参数,在这些基准测试中超越了GPTs、Claudes和Geminis。再次强调,请谨慎看待;这是否真的比它们更好?我不知道。但至少对我们来说,这意味着我们的模型在这个游戏中处于同等地位。”
除了体积更小之外,Molmo还是开源的。这很重要,因为它意味着现在人们有了一个免费的替代选项,不再依赖专有模型。
有一些开源模型开始在某些领域与顶尖模型竞争。Meta的Llama 3.1 405B例如,它是第一个规模化推出的开源权重的大规模语言模型。但它是不支持多模态的。(Meta发布了多模态版本的较小的Llama模型上周。它可能会在其最大的模型在未来几个月内做同样的事情。
摩尔莫比Llama更加开放。Meta的模型最好被描述为“开放权重”模型,该公司发布模型权重但不发布用于训练的代码或数据。最大的Molmo模型基于阿里云的开源权重Qwen2 72B——就像Llama一样,没有包含训练数据或代码——但Ai2确实发布了他们用来使模型多模态的数据集和代码。
此外,Meta将商业用途限制在用户数量不到700百万的产品上。相比之下,Molmo包含Apache 2.0许可证这意味着开发人员可以修改模型并几乎不受限制地商业化产品。
“我们的目标是研究人员、开发人员、应用开发者以及那些不知道如何处理这些[大型]模型的人。针对如此广泛的受众的一个关键原则是我们一直在推动的原则,即:使其更加易于访问。”Farhadi说.
这里有几个值得注意的点。首先,虽然专有模型的开发者试图通过他们的模型来获利,具有类似功能的开源替代品正在出现。正如Molmo所展示的,这些替代品体积更小,可以在本地运行,并且更加灵活。它们是那些承诺通过AI产品筹集数十亿美元公司的正当竞争者。
“拥有开源、多模态的模型意味着任何有想法的初创公司或研究人员都可以尝试去做,”普林斯顿大学的博士后Ofir Press表示,告诉了 Wired.
同时,OpenAI和谷歌处理图像和文本已经是老生常谈了。这些公司通过添加新的功能再次领先。高级语音功能, 视频生成,和 推理能力 with数十亿的新投资和访问不断增长的高质量数据来源的能力从与出版商打交道下一代模型可能会再次提高赌注。
然而,Molmo认为,即使最大的公司在扩大技术规模方面投入数百亿美元,开源替代品也可能不会落后太远。
Jason 是《奇点杂志》的主编。他在转向科学和技术之前研究并撰写过关于金融和经济学的内容。他对几乎所有事物都充满好奇,但尤其热爱学习和分享有关人工智能、计算、机器人技术、生物技术、神经科学以及太空领域的大胆构想和发展。