作者:Olivier Lacombe
对于杰玛(Gemma)的开放模型家族来说,过去几个月一直是一个激动人心的时刻。我们介绍了Gemma 3和Gemma 3 Qat,为单云和桌面加速器提供最先进的性能。然后,我们宣布了全部发布Gemma 3n,一种移动优先的体系结构,将功能强大的实时多模式AI直接带到边缘设备。我们的目标是为开发人员提供有用的工具,以便与AI一起构建,我们继续成为惊讶通过充满活力的Gemmaverse您正在帮助创建,随着上周下载超过2亿美元的庆祝。
今天,我们在Gemma 3工具包中添加了一个新的高度专业工具:Gemma 3 270m,一个紧凑型,2.7亿个参数模型,从头开始设计,用于特定于任务的微调,并具有强大的指导遵循和文本结构功能。
Gemma 3 270m将强大的指导遵循功能带入了小英尺型模型。如IFEVAL基准测试(测试模型遵循可验证说明的能力)所示,它为其尺寸建立了新的性能水平,从而使复杂的AI功能更容易在设备和研究应用程序中访问。
在工程学中,成功是由效率定义的,而不仅仅是原始功率。您不会使用大锤悬挂图片框架。同样的原则适用于使用AI的建筑物。
Gemma 3 270m体现了这种“工作正确的工具”哲学。这是一个高质量的基础模型,遵循说明很遥远,其真正的力量通过微调解锁。一旦专业化,它就可以以明显的准确性,速度和成本效益来执行文本分类和数据提取等任务。通过以紧凑的,有能力的模型开始,您可以构建精益,快速且易于运行的生产系统。
这种方法的力量已经在现实世界中取得了令人难以置信的结果。一个完美的例子是自适应ML使用SK Telecom完成的工作。面对细微差别,多语言内容审核的挑战,他们选择了专门研究。自适应ML微调Gemma 3 4B模型,而不是使用庞大的通用模型。结果令人惊叹:专业的Gemma模型不仅满足,而且超过了更大的专有模型在其特定任务上的性能。
Gemma 3 270m旨在让开发人员进一步采取这种方法,从而为定义明确的任务提供了更高的效率。这是创建一个小型专业模型的车队的完美起点,每个车型都是专家。
但是,这种专业的力量不仅用于企业任务。它还可以实现强大的创意应用程序。例如,查看这个睡前故事生成器网络应用:
Gemma 3 270m使用Transformers.js为就寝时间故事生成器Web应用供电。该模型的规模和性能使其适合离线,基于网络的创意任务。(信用:Joshua(X @xenovacom on X)来自拥抱面部团队)
Gemma 3 270M继承了Gemma 3系列的高级体系结构和强大的预培训,为您的自定义应用程序提供了坚实的基础。
在这里,这是一个完美的选择:
我们希望使将Gemma 3 270m变成您自己的自定义解决方案尽可能容易。它建立在与Gemma 3型号的其余部分相同的架构上,并带有食谱和工具,可以使您迅速启动。您可以找到我们的指南完整的微调使用Gemma 3 270m作为Gemma文档的一部分。
Gemmaverse建立在创新有各种规模的想法上。借助Gemma 3 270m,我们赋予开发人员的能力,以建立更智能,更快,更有效的AI解决方案。我们可以等待看到您创建的专业模型。