科学家利用“心灵字幕”技术将人们的心理图像转化为文本 |美国有线电视新闻网

开发了一种技术，利用大脑扫描和人工智能将人的心理图像转化为准确的描述性句子。尽管在利用大脑活动扫描来翻译我们认为的单词

11 月 5 日发表在该杂志上的一项研究的作者 Tomoyasu Horikawa 表示，将我们复杂的心理图像转化为语言已被证明具有挑战性科学进步。然而，堀川的新方法被称为“心灵字幕”，它利用人工智能生成描述性文本，反映大脑中有关视觉细节的信息，例如物体、地点、动作和事件以及它们之间的关系。

堀川是位于东京郊外的电信公司 NTT 通信科学实验室的研究员，他首先分析了四名男性和两名女性的大脑活动，他们的母语是日语，年龄在 22 到 37 岁之间，在他们观看视频剪辑时扫描他们的大脑。参与者观看了 2,180 个无声视频，这些视频时长数秒，内容因物体、场景和动作而异。

大型语言模型 – 在大型数据集上训练的生成式人工智能系统 –

采取了视频剪辑的标题并将这些标题转换为数字序列。堀川训练了独立的、更简单的人工智能模型，称为“解码器”，将扫描到的与视频剪辑相关的大脑活动与数字序列相匹配。

然后他用

解码器解释研究参与者的大脑活动，同时他们观看或回忆人工智能在训练过程中没有遇到过的视频。创建了另一种算法来逐步生成与解码的大脑活动最匹配的单词序列。随着人工智能从数据中学习，描述性文本工具

越来越擅长使用大脑扫描来描述参与者观看的视频。德国慕尼黑工业大学人工智能和神经科学伦理学教授、国际神经伦理学会候任主席马塞洛·伊恩卡 (Marcello Ienca) 告诉 CNN，“在我看来，这只是朝着我们可以合理地称为“读脑”或“读心术”的方向迈出的又一步。”

他没有参与这项研究。

即使参与者的母语不是英语，人工智能模型也会生成英语文本。

即使不使用大脑中与语言相关的区域或“语言网络”的活动，该方法也可以创建视觉内容的全面描述，”堀川说，“这表明即使有人在语言网络周围受到损害，也可以使用这种方法。

该技术有可能用于帮助失语症患者，这些患者由于语言网络周围的损坏而难以进行语言表达；或肌萎缩侧索硬化症（ALS）根据这项研究，这是一种影响言语的进行性神经退行性疾病。

“我认为这项研究为对沟通困难的人（包括非语言自闭症患者）进行一些深刻的干预铺平了道路，”纽约巴纳德学院讲师、心理学家斯科特·巴里·考夫曼（Scott Barry Kaufman）说，他没有参与这项研究。

然而，“我们必须谨慎使用它，并确保我们不会具有侵略性，并且每个人都同意它，”他告诉美国有线电视新闻网。

研究指出，这种方法的成功——可用于解码婴儿或动物的想法，或梦的内容——引发了有关隐私的伦理问题，因为有可能在个人说出自己的私人想法之前就将其泄露出去。

如果将来消费者将这项技术用于生物医学目的之外的用途，“我认为这是最终的隐私挑战，”伊恩卡说。

他补充说，有很多公司，例如Neuralink，埃隆·马斯克的大脑植入初创公司，他们公开声称即将为普通大众开发神经植入物。

“如果我们能做到这一点，那么在允许接触人们的思想和大脑方面，我们需要制定非常非常严格的规则，”伊恩卡说，并强调我们的大脑包含“敏感信息”，例如“早期痴呆症、精神疾病和抑郁症的特征”。

发表在期刊上的一项研究细胞八月提出，可以通过一种机制来防止解码过程中私人内心想法的“泄漏”，在该机制中，用户仅在有意时才想到特定的关键字来解锁解码工具。

“神经科学发展迅速，辅助潜力巨大，但精神隐私和思想自由保护却不能等待，”波兰亚当·密茨凯维奇大学助理教授、纽约神经权利基金会欧洲事务主任、社会科学家奥卡什·索斯凯维奇说。

– 我们应该默认将神经数据视为敏感数据，要求明确的目的有限的同意，并通过用户控制的“解锁”机制优先考虑设备上的处理。对人工智能的依赖带来了额外的监管和网络安全挑战，并强调了针对人工智能的补充性法律框架的必要性。”未参与这项研究的 Szoszkiewicz 告诉 CNN。

然而，堀川指出，他的研究中使用的方法需要收集大量数据，并需要积极参与者的合作。因此，虽然这项技术对神经科学研究有用，但“在实际应用中并不那么准确”，他说。

此外，研究中使用的视频包括典型场景，例如狗咬人，但不包括更不寻常的场景，例如人咬狗。因此，目前尚不清楚该技术是否可以用于捕捉难以预测的心理图像。

因此，“虽然有些人可能担心这项技术会对心理隐私构成严重风险”，但实际上，“目前的方法无法轻易读取一个人的私人想法，”堀川说。

注册CNN 的奇迹理论科学通讯。探索宇宙，了解有关令人着迷的发现、科学进步等的新闻。