作者:Daniel Newman
随着新工具和用例不断上市,生成式人工智能的热情持续稳步增长,涉及数十亿和数万亿参数的前沿模型一直是过去两年的焦点几乎每天。
我们还知道,用于语言、语音和视频的大型人工智能模型的快速增长给资源带来了显着的压力,这点燃了人们对核电的兴趣,因为微软、谷歌和 AWS 等超大规模企业都做出了相当大的承诺核能将支持预计在未来几年内建设的数千亿数据中心基础设施。
虽然由 OpenAI、NVIDIA、Google 和 Anthropic 的研究人员开发的具有数千亿和数万亿参数的模型处于最前沿,但我们也知道这些耗电的下一代模型通常比现有模型更强大。大多数用例都需要 - 有点像在交通高峰时段驾驶一级方程式赛车。
这就是可以用更少的能源和计算能力驱动的较小模型发挥作用的地方。
我们越来越多地听到具有数亿或不到 100 亿个参数的小型语言模型,这些模型非常准确,并且消耗的能量大大减少,每个代币的成本也更低。
今年 3 月的 GTC 会议上,NVIDIA推出NIM(NVIDIA推理微服务)软件技术,它将优化的推理引擎、行业标准 API 和对 AI 模型的支持打包到容器中,以便于部署。本质上,NIM 可以处理比小语言更大的模型,但是具有行业特定模型和 API 的优化容器服务的想法可用于可视化、游戏设计、药物发现或代码创建,代表了一个实例,其中计算、数据、模型和框架可以大大简化,同时还可以减少运行人工智能工作负载的计算能力。我认为 NVIDIA 和埃森哲最近宣布的合作伙伴关系是计算、行业特定微服务和专业知识相结合的一个很好的例子,可以帮助企业更快地采用人工智能。
上星期,IBM 发布了最新的 Granite 3.0 型号,这是一系列小型语言模型,与 Llama 和 Mistral 等小型语言模型(7-80 亿参数)相比,表现出了强大的性能。这三家公司都开发了灵活的开源选项,可以针对在数学、语言和代码等领域表现出色的业务用例进行调整和优化。虽然 Llama 一直是开源模型开发的主要内容,IBM 的快速改进值得关注这些公司的开源产品既可以在 AWS 等云中使用,也可以在 IBM 自己的 watsonx 平台上使用,我将这些进步视为一个例子,像 IBM 这样的专注于企业的公司,其软件、模型和考虑到解决一系列用例的复杂性,大型咨询公司可以有效地推行“企业人工智能”战略,这些用例通常不仅需要模型,还需要深厚的行业专业知识。
所有这些都是模型和灵活基础设施的混合体,企业可以专注于基于结果的人工智能项目,这些项目有助于实现下一波技术进步,如代理人工智能、助理和自动化以及大规模数字劳动力。
具有数万亿个参数的一刀切的模型是企业人工智能的圣杯,这一想法在许多不同的方面都表现不佳——最值得注意的是,对于明确定义的用例来说,能源消耗和每个代币的成本实际上只需要一个(最多)数十亿个要操作的参数在针对特定业务用例进行调整的专门较小模型上执行会更好。此外,当更好地理解数据沿袭并且数据访问仅限于所需的数据时,治理和处理大量不断增长的数据安全、隐私和主权问题将变得更加容易,而大型模型则需要大规模来解决过多的问题。用例。
此外,毫无疑问,我们希望继续研究和构建世界上最先进的人工智能,以帮助支持经济增长并帮助解决复杂问题。但是,对于企业来说,较小的语言和基础模型将被证明是许多业务用例的更好选择,并使人工智能能够以更可持续、更适合目的的方式大规模部署,同时有意义地降低成本人工智能。希望利用生成式和代理式人工智能解决方案潜力的企业不应该也不会忽视这一组合。