英语轻松读发新版了,欢迎下载、更新

阿联酋的 Falcon 3 在小型人工智能模型需求激增的情况下向开源领导者发起挑战

2024-12-17 20:03:00 英文原文

作者:Shubham Sharma

A pale human hand holds up a tiny robot.

图片来源:VentureBeat 使用 Midjourney 制作

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多


阿联酋政府支持技术创新研究院(TII) 宣布推出 Falcon 3,这是一系列开源小语言模型 (SLM),旨在在基于单 GPU 的轻量级基础设施上高效运行。

Falcon 3 具有四种模型尺寸(1B、3B、7B 和 10B),并带有基础和指令变体,有望让开发人员、研究人员和企业民主化使用高级 AI 功能。根据 Hugging Face 排行榜,这些模型的表现已经优于或接近匹配同尺寸级别的流行开源模型,包括 Meta 的 Llama 和类别领先者 Qwen-2.5。

发展恰逢其时对 SLM 的需求与法学硕士相比,参数更少、设计更简单,由于其效率、经济性以及部署在资源有限的设备上的能力,它正在迅速增长。它们适用于跨行业的一系列应用程序,例如客户服务、医疗保健、移动应用程序和物联网,在这些应用程序中,典型的法学硕士可能因计算成本过高而无法有效运行。根据评估报告预计这些型号的市场将会增长,未来五年复合年增长率将接近 18%。

猎鹰 3 号将带来什么?

Falcon 3 系列经过 14 万亿个令牌的训练(是其前身 Falcon 2 的两倍多),采用纯解码器架构,具有分组查询注意力,以共享参数并最大限度地减少推理过程中键值 (KV) 缓存的内存使用。这使得在处理各种基于文本的任务时能够实现更快、更高效的操作。

这些模型的核心支持四种主要语言——英语、法语、西班牙语和葡萄牙语——并配备了 32K 上下文窗口,使它们能够处理长输入,例如措辞繁重的文档。

– Falcon 3 用途广泛,专为通用和专业任务而设计,为用户提供了巨大的灵活性。它的基本模型非常适合生成应用程序,而指令变体则在客户服务或虚拟助理等对话任务中表现出色。”网站

根据排行榜在 Hugging Face 上,虽然所有四个 Falcon 3 模型都表现得相当不错,但 10B 和 7B 版本是节目中的明星,在推理、语言理解、指令遵循、代码和数学任务方面取得了最先进的结果。 

在 13B 参数尺寸级别的型号中,Falcon 3 的 10B 和 7B 版本优于竞争对手,包括Google 的 Gemma 2-9B, Meta 的骆驼 3.1-8B,米斯特拉尔-7B,和易1.5-9B。它们甚至在大多数基准测试中都超过了阿里巴巴的类别领导者 Qwen 2.5-7B(例如 MUSR、MATH、GPQA 和 IFEval),但 MMLU 除外,MMLU 是评估语言模型理解和处理人类的能力的测试语言。

Falcon 3 benchmarks
猎鹰 3 基准测试

跨行业部署

Falcon 3 型号现已上市抱脸,TII 旨在服务广泛的用户,实现经济高效的人工智能部署,而没有计算瓶颈。这些模型能够以快速的处理时间处理特定的、以领域为中心的任务,可以为边缘和隐私敏感环境中的各种应用程序提供支持,包括客户服务聊天机器人、个性化推荐系统、数据分析、欺诈检测、医疗诊断、供应链优化和教育。

该研究所还计划通过引入具有多模式功能的模型来进一步扩展 Falcon 系列。这些型号预计将于 2025 年 1 月某个时间推出。

值得注意的是,所有模型均根据 TII Falcon License 2.0 发布,这是一种基于 Apache 2.0 的宽松许可证,具有可接受的使用政策,鼓励负责任的 AI 开发和部署。为了帮助用户入门,TII 还推出了 Falcon Playground,这是一个测试环境,研究人员和开发人员可以在将 Falcon 3 模型集成到应用程序之前先试用该环境。

使用 VB Daily 每日洞察业务用例

如果您想给老板留下深刻印象,VB Daily 可以满足您的要求。我们为您提供有关公司在生成人工智能方面所做的事情的内幕消息,从监管转变到实际部署,以便您可以分享见解以实现最大投资回报率。

阅读我们的隐私政策

感谢您的订阅。查看更多VB 时事通讯在这里

发生错误。

关于《阿联酋的 Falcon 3 在小型人工智能模型需求激增的情况下向开源领导者发起挑战》的评论


暂无评论

发表评论

摘要

阿联酋技术创新研究所 (TII) 推出了 Falcon 3,这是一系列开源小语言模型 (SLM),旨在在基于单一 GPU 的基础设施上高效运行。根据 Hugging Face 排行榜,这些型号有四种尺寸(1B、3B、7B 和 10B),其性能优于或匹配 Meta 的 Llama 和阿里巴巴的 Qwen-2.5 等流行的同类产品。Falcon 3 通过仅解码器架构进行了效率优化,并支持多种语言,使其适合客户服务、医疗保健、移动应用、物联网等领域的应用。TII 计划在 2025 年 1 月之前通过多模式模型扩展 Falcon 系列,并提供宽松的许可证以及 Hugging Face 上的测试环境。