加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多
一项拥有数百年历史的技术——笔和纸——正在经历戏剧性的数字升级。谷歌研究开发了一种人工智能系统,可以准确地将手写笔记的照片转换为可编辑的数字文本,这有可能改变数百万人捕捉和保存想法的方式。
新系统称为墨水视觉,代表了弥合传统手写和数字文本之间鸿沟的长期努力的重大突破。研究人员表示,尽管数字笔记记录几十年来提供了明显的优势——可搜索性、云存储、轻松编辑以及与其他数字工具的集成,但传统的纸笔笔记记录仍然受到广泛青睐。
谷歌的新人工智能系统如何比以往更好地理解人类笔迹
“数字笔记越来越受欢迎,它提供了一种持久、可编辑且易于索引的矢量化形式存储笔记的方式,”Google Research 项目负责人 Andrii Maksai 在论文中解释道。“然而,这种笔记方式与传统的纸笔笔记方式之间仍然存在很大差距,而传统的纸笔笔记方式仍然受到绝大多数人的青睐。”
InkSight 的革命性之处在于它理解手写的方法。以前将手写文本转换为数字格式的尝试在很大程度上依赖于分析书写笔划的几何属性——本质上是试图追踪页面上的线条。相反,InkSight 结合了两种复杂的人工智能功能:阅读和理解文本的能力,以及自然再现文本的能力。
结果是显着的。在人类评估中,InkSight 生成的样本中有 87% 被认为是输入文本的有效跟踪,67% 与人类生成的数字手写体无法区分。该系统可以处理可能使早期系统感到困惑的现实场景:光线不佳、背景混乱,甚至文本部分模糊。
“据我们所知,这是第一个能够有效地对具有不同视觉特征和背景的任意照片中的手写文本进行去渲染的工作,”研究人员在 arXiv 上发表的论文中解释道。该系统甚至可以处理简单的草图和绘图,但有一些限制。
为什么手写在我们的数字时代仍然很重要,以及人工智能如何帮助保护它
该技术正处于人机交互发展的关键时刻。尽管数字技术取得了数十年的进步,手写仍然在人类认知和学习中根深蒂固。研究一致表明,与打字相比,手写可以提高记忆力和理解力。这给教育和专业环境中的技术采用带来了持续的挑战。
“我们的工作旨在以数字墨水的形式提供物理笔记,特别是手写文本,捕捉手写的笔划级轨迹细节,”Maksai 说。– 这使得纸质笔记记录者无需使用手写笔即可享受数字媒体的优势。 –
其影响远远超出了简单的便利性。在学术环境中,学生可以保持自己喜欢的手写笔记风格,同时获得以数字方式搜索、共享和组织笔记的能力。手绘草图想法或记录会议笔记的专业人士可以将它们无缝地集成到数字工作流程中。研究人员和历史学家可以更轻松地数字化和分析手写文档。
也许最重要的是,InkSight 可以帮助保存和数字化历史上数字表示有限的语言的手写内容。“我们的工作可以允许访问物理笔记下的数字墨水,从而有可能为数字墨水领域历史上资源匮乏的语言训练更好的在线手写识别器,”克劳迪乌·穆萨特(Claudiu Musat)博士指出。该项目的研究人员。
从突破到实际应用:数字笔记的技术架构和未来
该技术的架构非常优雅。使用广泛可用的组件构建,包括Google 的 Vision Transformer (ViT)和mT5语言模型InkSight 展示了如何通过巧妙组合现有工具来实现复杂的 AI 功能,而不是从头开始构建一切。
谷歌发布了一个模型的公共版本,尽管有重要的道德保障。该系统无法从头开始生成笔迹——这是防止潜在的伪造或冒充滥用的一个关键限制。
目前的限制确实存在。该系统逐字处理文本,而不是一次处理整个页面,并且偶尔会遇到非常宽的笔划宽度或笔划宽度的显着变化。然而,与该系统的成就相比,这些限制似乎微不足道。
该技术可通过拥抱脸部演示,让用户能够亲身体验他们的手写笔记如何转化为数字形式。早期的反馈非常积极,用户特别注意到该系统能够在提供数字优势的同时保持手写的个人特征。
虽然大多数人工智能系统都寻求自动化人类任务,但 InkSight 却走了一条不同的道路。它保留了手写的认知优势和个人亲密感,同时增加了数字工具的功能。这种微妙但至关重要的区别表明,未来技术将增强而不是取代人类的能力。
最后,InkSight 最大的创新可能是它的限制——展示了人工智能如何能够在不抹杀人类本质的情况下推进人类实践。