作者:Kyle Wiggers
AI开发平台团队抱脸有释放他们声称这是可以分析图像、短视频和文本的最小人工智能模型。
SmolVLM-256M 和 SmolVLM-500M 型号专为在“受限设备”(例如 RAM 小于 1GB 左右的笔记本电脑)上良好运行而设计。该团队表示,它们对于试图以非常低的成本处理大量数据的开发人员来说也是理想的选择。
SmolVLM-256M 和 SmolVLM-500M 的大小分别仅为 2.56 亿个参数和 5 亿个参数。(参数大致对应于模型解决问题的能力,例如数学测试中的表现。)这两种模型都可以执行诸如描述图像或视频剪辑以及回答有关 PDF 及其中的元素(包括扫描文本和文本)的问题等任务。图表。
为了训练 SmolVLM-256M 和 SmolVLM-500M,Hugging Face 团队使用了 The Cauldron(一组 50 个高质量图像和文本数据集)和 Docmatix(一组配有详细说明文字的文件扫描)。两者均由 Hugging Face 创作M4队,开发多模式人工智能技术。
该团队声称,SmolVLM-256M 和 SmolVLM-500M 在包括 AI2D 在内的基准测试中都优于更大的模型 Idefics 80B,AI2D 测试模型分析小学水平科学图表的能力。SmolVLM-256M 和 SmolVLM-500M 可在网上获取,也可以在 Apache 2.0 许可证下从 Hugging Face 下载,这意味着它们可以不受限制地使用。
SmolVLM-256M 和 SmolVLM-500M 等小型型号可能价格低廉且用途广泛,但它们也可能包含大型型号中不那么明显的缺陷。谷歌 DeepMind、微软研究院和魁北克 Mila 研究所最近的一项研究发现,许多小型模型表现比预期差复杂的推理任务。研究人员推测,这可能是因为较小的模型可以识别数据中的表面模式,但很难将这些知识应用到新的环境中。
TechCrunch 有一份以人工智能为中心的时事通讯! 在这里注册每周三将其发送到您的收件箱。
Kyle Wiggers 是 TechCrunch 的高级记者,对人工智能特别感兴趣。他的文章曾发表在 VentureBeat 和 Digital Trends 以及一系列小工具博客上,包括 Android Police、Android Authority、Droid-Life 和 XDA-Developers。他和他的伴侣(一位钢琴教育家)住在布鲁克林,他自己也涉足钢琴。偶尔——如果大多不成功的话。
订阅业界最大的科技新闻