加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多
拥抱脸取得了非凡的AI的突破,引入视觉模型,这些模型在像智能手机一样小的设备上运行,同时超过了需要大量数据中心的前身。
公司的新SMOLVLM-256M型号,需要少于GPU记忆的千兆字节,超过了其性能IDEFICS 80B模型从仅仅17个月前开始,一个系统大300倍。这种大小和能力的提高的大幅度降低标志着实际AI部署的分水岭。
当我们在2023年8月发布Idefics 80B时,我们是第一家公司开源Hugging Face的机器学习研究工程师AndréSMarafioti是一种视频语言模型,他在接受VentureBeat的独家采访中说。通过在提高性能的同时实现300倍的尺寸降低,Smolvlm标志着视觉模型的突破。
在日常设备上运行的较小的AI模型
进步到达了与企业斗争的关键时刻天文计算成本实施AI系统。新的Smolvlm型号256m和500m参数大小 - 处理图像并以先前无法实现的尺寸类别的速度理解视觉内容。
最小的版本每秒处理16个示例,同时仅使用15GB的RAM,批次大小为64,这使得它对希望处理大量视觉数据的企业特别有吸引力。Marafioti告诉VentureBeat,对于每月处理100万张图像的中型公司,这意味着每年节省的计算成本。”降低的内存足迹意味着企业可以在廉价的云实例上部署,降低基础设施成本。
该开发已经引起了主要技术参与者的注意。IBM与拥抱面孔合作,将256m型号整合到文档,他们的文档处理软件。Marafioti说:“尽管IBM肯定可以使用大量的计算资源,但使用此类较小的模型可以使他们有效地以一小部分成本处理数百万个文档。”
拥抱面部如何减小模型大小而不会损害功率
效率的提高来自视觉处理和语言组件中的技术创新。团队从400m参数视觉编码器切换到9300万参数版本,并实现了更具侵略性的令牌压缩技术。这些变化保持高性能,同时大大降低了计算要求。
对于初创企业和较小的企业,这些发展可能具有变革性。Marafioti说:“现在,初创公司可以在数周而不是几个月内推出复杂的计算机视觉产品,而基础设施成本仅在几个月前就可以发行。”
影响超出了成本节省,以实现全新的应用程序。这些模型正在通过高级文档搜索功能为科利帕利,一种从文档档案中创建可搜索数据库的算法。他们获得了非常近距离的10倍尺寸的表演,同时显着提高了创建和搜索数据库的速度,从而使所有类型的企业都可以访问企业范围的视觉搜索,Marafioti''解释了。
为什么较小的AI模型是AI开发的未来
突破挑战了关于模型大小和能力之间关系的传统观念。尽管许多研究人员都认为较大的模型对于高级视力语言任务是必需的,但Smolvlm表明,较小,更有效的架构可以实现相似的结果。500m参数版本可实现其2.2b参数兄弟姐妹在关键基准测试中的90%。
Marafioti并没有提出效率高原,而是将这些结果视为尚未开发的潜力的证据:直到今天,标准是释放以2B参数为单位的VLM;我们认为较小的模型没有用。我们证明,实际上,规模1/10的模型对企业来说非常有用。
由于对Ai的越来越担心,这一发展到来环境影响和计算成本。通过大大减少视觉语言AI所需的资源,拥抱面对的创新可以帮助解决这两个问题,同时使更广泛的组织可以访问高级AI功能。
这些模型是可用的开源,继续拥抱面对增加AI技术的传统。这种可访问性以及模型的效率可以加快从医疗保健到零售业的行业中的视觉AI的采用,那里的加工成本以前已经过高。
在一个长期以来意味着更好的领域,拥抱面对的成就表明了一个新的范式:在遥远的数据中心运行的越来越大的模型中,AI的未来可能找不到,而是在敏捷的,高效的系统中直接运行的系统。设备。随着行业应对规模和可持续性问题,这些较小的模型可能只是迄今为止最大的突破。