英语轻松读发新版了,欢迎下载、更新

萨卡纳(Sakana

2025-05-12 23:08:55 英文原文

作者:Carl Franzen

AI line art of a brain diagram with colored hemispheres against a dark backdrop with white lines and nodes

信用:Midjourney制造的VentureBeat

加入我们的每日和每周的新闻通讯,获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多


总部位于东京的人工智能创业公司Sakana由前顶级Google AI科学家共同创立,包括Llion Jones和David HA,已揭露了一种新型的新型AI模型架构称为连续思维机(CTM)

CTM旨在引入AI语言模型的新时代,该模型将更加灵活,并能够处理更广泛的认知任务 - 例如解决复杂的迷宫或导航任务,而无需位置提示或预先存在的空间嵌入,将它们移动到不熟悉的问题上,使它们更加接近人类的方式。

而不是依靠固定的平行层一次处理全部输入的固定层,因为变形金刚模型可以通过每个输入/输出单元(称为人造神经元)内的步骤进行计算。

模型中的每个神经元都保留了其先前活动的简短历史,并使用该内存来决定何时再次激活。

这种增加的内部状态允许CTMS根据任务的复杂性,动态地调整其推理的深度和持续时间。因此,与典型的变压器模型相比,每个神经元在信息密集和复杂得多。

该初创公司发布了一个关于开放访问期刊的论文Arxiv描述其工作,微材料GitHub存储库

CTM与基于变压器的LLM的不同

大多数现代大型语言模型(LLMS)仍然是基于Google大脑研究人员的2017年开创性论文中概述的Transformer架构,题为“注意就是您所需要的……

这些模型使用平行的,固定的人工神经元的固定层层来处理单个通过中的输入 - 这些输入是在推理时从用户提示还是在培训期间标记的数据。

相比之下,CTM允许每个人工神经元在其自身的内部时间表上操作,从而基于对先前状态的短期记忆做出激活决策。这些决定在被称为tick的内部步骤上展开,使模型能够动态调整其推理持续时间。

基于时间的架构允许CTM逐步推理,调整他们根据输入的复杂性来计算不同数量的tick的时间和深度。

神经元特异性内存和同步有助于确定何时应继续或停止计算。

根据输入的信息,tick的数量会更改,即使输入信息是相同的,也可能或多或少,因为每个神经元在提供输出之前(或根本不提供输出)之前,正在决定要进行多少个壁虱。

这既代表了技术和哲学上的传统深度学习,而是朝着更加生物学上的模型发展。Sakana已将CTMS构建为迈向更类似大脑的智能系统的一步,这些系统会随着时间的流逝而适应,灵活地处理信息,并在需要时进行更深入的内部计算。

Sakana的目标是最终达到与人类大脑相抗衡的能力水平。”

使用变量,自定义时间表来提供更多的智能

CTM围绕两个关键机制构建。

首先,模型中的每个神经元都保持了简短的历史记忆或工作何时激活以及原因,并使用此历史来决定下一个何时开火。

第二,神经同步如何以及何时模型的人工神经元 - 允许有机发生的。

神经元组决定何时基于内部对齐方式一起开火,而不是外部指示或奖励塑造。这些同步事件用于调节注意力并产生输出,即注意到更多神经元发射的区域。

该模型不仅仅是处理数据,它的时间是与任务的复杂性相匹配的时间。

这些机制共同使CTMS减少了更简单任务的计算负载,同时在需要的情况下应用了更深入的,延长推理。

在从图像分类和2D迷宫求解到增强学习的演示中,CTM既显示出可解释性和适应性。他们的内部思想步骤使研究人员能够观察决策如何随着时间的流逝而形成的透明度很少在其他模型家族中。

早期结果:CTM与关键基准和任务上的变压器模型进行比较

Sakana AI的连续思想机器并非旨在追逐排行榜的基准分数,但其早期结果表明,其生物学启发的设计并非以实用能力为代价。

在广泛使用的Imagenet-1K基准测试中,CTM获得了72.47%的TOP-1和89.89%的前5个精度。

尽管这虽然缺少VIT或Convnext(Convnext)的最新变压器模型,但考虑到CTM体系结构在根本上是不同的,并且不仅针对性能进行优化,尤其是竞争性。

在顺序和适应性任务中,CTM的行为更加突出。在迷宫解决方案中,该模型在不使用位置嵌入的情况下从原始图像中产生逐步定向输出,而位置嵌入通常在变压器模型中至关重要。视觉关注痕迹表明,CTM通常会以类似人类的序列进行图像区域,例如识别从眼睛到鼻子到嘴巴的面部特征。

该模型还表现出强大的校准:其置信度估计与实际预测准确性紧密保持一致。与大多数需要温度缩放或事后调整的模型不同,CTM通过随着时间的推移而自然改进校准,随着其内部推理的展开。

顺序推理,自然校准和可解释性的这种融合为信任和可追溯性与原始精度至关重要的应用提供了宝贵的权衡。

CTM为企业和商业部署做好准备之前,需要什么?

尽管CTMS表现出很大的希望,但该体系结构仍是实验性的,尚未针对商业部署进行优化。Sakana AI将模型作为进一步研究和探索的平台而不是插件企业解决方案。

培训CTMS目前比标准变压器模型需要更多的资源。他们的动态时间结构扩大了状态空间,需要仔细调整以确保跨内部时间步骤稳定,有效的学习。此外,调试和工具支持仍在吸引许多当今的库,而探索者并未考虑到时间上的模型。

尽管如此,萨卡纳还是为社区收养奠定了坚实的基础。完整的CTM实施是开源的github并包括特定领域的培训脚本,验证的检查站,绘图实用程序和分析工具。受支持的任务包括图像分类(Imagenet,Cifar),2D迷宫导航,Qamnist,奇偶计算,分类和增强学习。

交互式Web演示还使用户可以探索CTM在作用中,观察其注意力在推理过程中如何随着时间的流逝而变化。一种令人信服的方式来理解体系结构的推理流。

为了使CTM到达生产环境,在优化,硬件效率以及与标准推理管道集成方面需要进一步的进展。但是,借助可访问的代码和主动文档,萨卡纳(Sakana)使研究人员和工程师现在可以轻松地开始尝试该模型。

企业AI领导者对CTMS应该知道什么

CTM体系结构仍处于早期,但企业决策者应该已经注意到。它具有适应分配计算,自我调节深度并提供明确解释性的能力可能证明在面临可变输入复杂性或严格监管要求的生产系统中非常有价值。

管理模型部署的人工智能工程师将在CTM节能推论中找到价值 - 尤其是在大规模或延迟敏感的应用中。

同时,该体系结构的逐步推理可以解锁更丰富的解释性,使组织不仅可以追踪模型的预测,而且可以追踪其到达那里的方式。

对于编排和MLOPS团队,CTMS与诸如基于重新连接的编码器之类的熟悉组件集成,从而使现有工作流程更加顺畅。基础架构线索可以使用体系结构的分析挂钩来更好地分配资源并随着时间的推移监视性能动态。

CTMS Arent准备替换变压器,但它们代表了新型模型,并具有新颖的负担。对于优先考虑安全性,可解释性和自适应计算的组织,该体系结构值得密切关注。

Sakana的格子AI研究历史

2月,Sakana介绍了AI CUDA工程师,旨在自动化高度优化的代理AI系统CUDA内核,允许NVIDIA(和其他)图形处理单元(GPU)在多个线程或计算单元之间并行运行代码的指令集。

承诺很重要:ML操作中10倍至100倍的加速。但是,发行后不久,外部审阅者发现系统正在利用评估沙箱中的弱点本质上是作弊通过绕过正确性检查的记忆利用。

在公开帖子中,萨卡纳(Sakana)承认了这个问题,并归功于社区成员的标记。

自从大修了他们的评估和运行时分析工具以消除类似的漏洞,并正在对其结果和研究论文进行相应的修改。该事件提供了对萨卡纳陈述的价值之一的现实测试:追求更好的AI系统以拥抱迭代和透明度。

投注进化机制

Sakana Ai的创始精神在于将进化计算与现代机器学习合并。该公司认为,当前的模型过于严格地锁定在固定的架构中,需要重新训练以完成新任务。

相比之下,萨卡纳(Sakana)旨在创建实时适应,表现出紧急行为并通过互动和反馈自然扩展的模型,就像生态系统中的生物一样。

这种愿景已经在诸如变形金刚之类的产品中表现出来,后者在推理时间不进行重新训练的情况下调整了LLM参数,并使用奇异价值分解等代数技巧。

他们对像AI科学家这样的开源系统的承诺也很明显,甚至在争议中也表明了与更广泛的研究社区互动的意愿,而不仅仅是与之竞争。

随着Openai和Google等大型企业的基础模型,Sakana正在绘制不同的课程:小型,动态,生物学启发的系统,这些系统会及时思考,按设计进行协作并通过经验发展。

每日有关VB每日业务用例的见解

如果您想给老板留下深刻的印象,VB Daily可以为您提供服务。我们为您提供有关公司在制定AI的工作,从监管转变到实际部署的公司,因此您可以分享最大投资回报率的见解。

阅读我们的隐私政策

感谢您的订阅。查看更多VB时事通讯在这里

发生错误。

关于《萨卡纳(Sakana》的评论


暂无评论

发表评论

摘要

总部位于东京的AI初创公司Sakana推出了连续思想机(CTM),这是一种由Google AI科学家Llion Jones和David HA共同创建的新型AI模型架构。与传统的变压器模型不同,CTM允许每个人工神经元在自己的时间轴上运行,从而根据任务复杂性调整推理的深度和持续时间。这种方法旨在模仿人类的认知灵活性,并旨在为更具动态,生物学的智能而设计。最初的结果表明在Imagenet-1K等基准上表现出竞争性能,同时提供了增强的适应性和复杂任务中的可解释性。Sakana拥有开源的CTM的实施,并将其定位为进一步研究的平台,而不是直接的商业解决方案。