作者:By Caiwei Chenarchive page
目前,大多数大型语言模型将文本分解为数千个称为标记的微小单元。这会将文本转化为模型可以理解的表示形式。然而,随着与最终用户的对话时间越来越长,这些令牌的存储和计算很快就会变得昂贵。当用户与人工智能长时间聊天时,这种挑战可能会导致人工智能忘记告诉它的事情并得到混乱的信息,有些人将这个问题称为“上下文腐烂”。
DeepSeek 开发的新方法(并发表在其最新论文)可以帮助解决这个问题。它的系统不是将单词存储为标记,而是将书面信息打包成图像形式,几乎就像是在为书中的页面拍照一样。研究人员发现,这使得模型能够保留几乎相同的信息,同时使用更少的标记。
从本质上讲,OCR 模型是这些新方法的测试平台,可以更有效地将更多信息打包到 AI 模型中。
除了使用视觉标记而不仅仅是文本标记之外,该模型还建立在一种分层压缩的基础上,这与人类记忆的消失方式没有什么不同:较旧或不太重要的内容以稍微模糊的形式存储,以节省空间。尽管如此,该论文的作者认为,这些压缩内容仍然可以在后台访问,同时保持高水平的系统效率。
文本标记长期以来一直是人工智能系统中的默认构建块。使用视觉标记是非常规的,因此 DeepSeek 的模型很快吸引了研究人员的注意力。特斯拉前 AI 负责人、OpenAI 创始成员安德烈·卡帕蒂 (Andrej Karpathy) 对这篇论文表示赞赏X,表示作为法学硕士的输入,图像最终可能比文本更好。他写道,文本标记可能“浪费而且在输入时很糟糕”。
西北大学计算机科学助理教授李曼玲表示,这篇论文为解决人工智能内存中现有的挑战提供了一个新的框架。“虽然使用基于图像的标记进行上下文存储的想法并不是全新的,但这是我见过的第一项研究,它已经走到了这一步,并表明它可能确实有效,”李说。
西北大学博士生王子涵表示,这种方法可以为人工智能研究和应用开辟新的可能性,特别是在创建更有用的人工智能代理方面。他认为,由于与人工智能的对话是连续的,这种方法可以帮助模型记住更多信息并更有效地帮助用户。
该技术还可用于为人工智能模型生成更多训练数据。模型开发人员目前正在努力解决用于训练系统的高质量文本严重短缺的问题。但 DeepSeek 论文称,该公司的 OCR 系统每天可以在单个 GPU 上生成超过 200,000 页的训练数据。
然而,该模型和论文只是使用图像标记而不是文本标记进行人工智能记忆的早期探索。李说,她希望看到视觉标记不仅应用于记忆存储,还应用于推理。她说,未来的工作应该探索如何让人工智能的记忆以一种更动态的方式消失,就像我们如何回忆起几年前改变生活的时刻,但却忘记了上周午餐吃了什么。她说,目前,即使使用 DeepSeek 的方法,人工智能也倾向于以非常线性的方式忘记和记忆——回忆最近发生的事情,但不一定是最重要的。
尽管试图保持低调,总部位于中国杭州的 DeepSeek 却因推动人工智能研究前沿而享有盛誉。公司今年年初震惊业界随着 DeepSeek-R1 的发布,这是一种开源推理模型,尽管使用的计算资源少得多,但其性能可与西方领先系统相媲美。