科赫里说一篇博文
8B 参数模型“让全世界的研究人员更容易取得突破”,而 32B 参数模型则提供最先进的多语言功能。 阿雅项目寻求以除英语之外的更多全球语言扩展对基础模型的访问。该公司的研究部门 Cohere for AI 去年推出了 Aya 计划。二月,
发布Aya 101大语言模型(LLM),一个涵盖 101 种语言的 130 亿参数模型。Cohere for AI 还发布了 Aya 数据集,以帮助扩展对其他语言进行模型训练的访问。 Aya Expanse 使用的配方与构建 Aya 101 的配方基本相同。
“Aya Expanse 的改进是通过重新思考机器学习突破的核心构建模块,持续关注扩展人工智能为世界各地的语言提供服务的方式的结果,”Cohere 说。
“过去几年我们的研究议程包括专门关注弥合语言差距,并取得了对当前方案至关重要的几项突破:数据套利、一般性能和安全性的偏好训练,以及最后的模型合并。”¤
绫表现不错
Cohere 表示,这两个 Aya Expanse 模型的性能始终优于 Google、Mistral 和 Meta 的类似大小的 AI 模型。
Aya Expanse 32B 在基准多语言测试中比 Gemma 2 27B、Mistral 8x22B 甚至更大的 Llama 3.1 70B 表现更好。较小的 8B 的性能也优于 Gemma 2 9B、Llama 3.1 8B 和 Ministral 8B。
Cohere 使用一种称为数据套利的数据采样方法开发了 Aya 模型,以避免模型依赖合成数据时产生乱码。许多模型使用从“教师”模型创建的合成数据来进行训练。然而,由于很难为其他语言找到好的教师模型,特别是对于资源匮乏的语言。
它还侧重于引导模型走向“全球偏好”并考虑不同的文化和语言观点。Cohere 表示,它找到了一种在引导模型偏好的同时提高性能和安全性的方法。
“我们认为这是训练人工智能模型的“最后的火花”,”该公司表示。然而,偏好培训和安全措施往往与以西方为中心的数据集中普遍存在的危害相适应。问题是,这些安全协议经常无法扩展到多语言环境。我们的工作是将偏好训练扩展到大规模多语言环境的工作之一,考虑到不同的文化和语言观点。
不同语言的模型
Aya 计划的重点是确保法学硕士研究在英语以外的语言中表现良好。
许多法学硕士最终会以其他语言提供,特别是对于广泛使用的语言,但很难找到数据来训练不同语言的模型。毕竟,英语往往是政府、金融、互联网对话和商业的官方语言,因此查找英语数据要容易得多。
由于翻译质量的原因,也很难准确地对不同语言的模型性能进行基准测试。
其他开发人员也发布了自己的语言数据集,以进一步研究非英语法学硕士。例如,OpenAI 就做出了多语言海量多任务语言理解数据集上个月在《拥抱脸》中。该数据集旨在帮助更好地测试 14 种语言的 LLM 表现,包括阿拉伯语、德语、斯瓦希里语和孟加拉语。
过去几周 Cohere 一直很忙。本周,该公司添加了图像搜索嵌入能力 3,其企业嵌入产品用于检索增强生成(RAG)系统。本月,它还加强了对其 Command R 08-2024 型号的微调。