作者:By Abhimanyu Ghoshal
总部位于加利福尼亚的研究人员已经开发了一种AI驱动的系统,可以实时恢复瘫痪者的自然语音,并使用自己的声音。
这项来自加利福尼亚大学伯克利分校和加利福尼亚大学旧金山大学研究人员的新技术利用可以利用大脑来测量神经活动的设备以及实际上学习如何构建患者声音的AI。
那远远领先于最近的进步与去年一样在用于综合语音的脑部计算机界面领域。
加州大学伯克利分校电气工程和计算机科学助理教授Gopala Anumanchipalli解释说:“我们的流媒体方法将Alexa和Siri等设备等设备的快速语音解码能力带到了神经phos。”本周出现的研究自然神经科学。“使用类似类型的算法,我们发现我们可以解码神经数据,并首次启用近似同步的语音流。结果是更自然,流利的语音综合。”
这项技术的整洁是,它可以与一系列大脑感测界面有效地工作。其中包括直接从脑表面记录神经活动的高密度电极阵列(如研究人员所使用的设置),以及穿透大脑表面的微电极以及面部的非侵入性表面肌电图(SEMG)传感器,以测量肌肉活性。
这是它的工作方式。首先,适合患者的神经假体从控制语音产生的大脑运动皮层中采样神经数据。然后,AI将数据解码为语音。共同撰写论文的Cheol Jun Cho解释说:“ ...在想法发生后,我们正在解码,在我们决定说些什么之后,我们决定使用什么单词以及如何移动我们的声音肌肉。”
AI是从患者默默地捕获的大脑功能数据的训练,试图说出出现在其前面屏幕上的单词。这使团队可以绘制神经活动及其试图说的话。
此外,一种文本到语音模型 - 在患者受伤和瘫痪之前,使用患者的声音开发了您可以从患者“说话”中听到的音频。
流媒体的大脑到声学神经假体,以恢复自然主义的交流
在上面的概念验证演示中,看来由此产生的演讲并不完全完美或完全自然地节奏,但它却很接近。该系统开始在患者试图说话的几秒钟内解码大脑信号和输出语音。那是从在先前的研究中,该团队在2023年进行了8秒。
通过帮助他们传达从日常需求到复杂的思想,并更自然地与亲人建立联系,可以极大地改善瘫痪和类似的使人衰弱状况的人们的生活质量。
研究人员的下一步将使他们加快AI的处理,以更快地生成语音,并探索使输出声音更具表现力的方法。
来源:加州大学伯克利分校工程