这项新技术让人工智能与它和你的情感联系起来 - 连线

2024-09-11 16:27:00 英文原文

<正文>

纽约初创公司 Hume AI 今天推出了一款新的移情语音界面,可以将一系列情感表达的声音以及情感协调的耳朵添加到来自 Anthropic、Google、Meta、Mistral、OpenAI 预示着一个时代,人工智能助手可能会更频繁地对我们表现出热情。

Hume AI 联合创始人艾伦·考恩 (Alan Cowen) 表示,我们专注于建立具有同理心的人格,以人们会说话的方式说话,而不是对人工智能助理的刻板印象。关于 Google 和 Facebook 的情感技术。

《连线》测试了 Humes 最新的语音技术(称为 EVI 2),发现其输出与 OpenAI 为 ChatGPT 开发的输出类似。(当 OpenAI 在 5 月份为 ChatGPT 提供了一个调情的声音时,公司首席执行官 Sam Altman 称赞该界面感觉就像电影中的 AI。后来,一位真正的电影明星斯嘉丽约翰逊声称 OpenAI 抄袭了她的声音。)

与 ChatGPT 一样,Hume 比大多数传统语音界面更具情感表达能力。例如,如果你告诉它你的宠物死了,它会采取适当的忧郁和同情的语气。(此外,与 ChatGPT 一样,您可以在流程中中断 Hume,它会暂停并适应新的响应。)

OpenAI 并未透露其语音界面在多大程度上试图测量用户的情绪,但 Humes 明确是为了做到这一点而设计的。在交互过程中,Humes 开发者界面将显示一些值,这些值指示用户声音中的决心、焦虑和幸福感等指标。如果你用悲伤的语气与 Hume 交谈,它也会注意到这一点,而 ChatGPT 似乎不会这样做。

Hume 还可以通过在 UI 中添加提示来轻松部署具有特定情感的语音。这是当我要求它性感和调情时的样子:

当被告知要悲伤和忧郁时:

当被要求生气和粗鲁时,这是特别令人讨厌的信息:

这项技术并不总是像 OpenAI 那样完美、流畅,而且偶尔也会表现得很奇怪。例如,有一次声音突然加快并吐出胡言乱语。但如果语音能够得到改进并变得更加可靠,它就有可能帮助使人性化的语音界面变得更加普遍和多样化。

在技术系统中识别、测量和模拟人类情感的想法可以追溯到几十年前,并在情感计算领域进行研究,该术语由麻省理工学院媒体实验室教授 Rosalind Picard 在 20 世纪 90 年代提出。

荷兰乌得勒支大学研究情感计算的教授阿尔伯特·萨拉赫 (Albert Salah) 对 Hume AI 技术印象深刻,最近向他的学生展示了该技术。他说,EVI 似乎正在做的是将情绪效价和唤醒值分配给[用户],然后相应地调整代理的语音。这是法学硕士的一个非常有趣的转变。

萨拉赫表示,休姆斯技术可能在营销以及心理健康治疗中发挥作用。然而他指出,人们经常在互动过程中隐藏自己的真实情绪或改变自己的情绪,这使得人工智能系统很难准确地捕捉到他们的真实感受。他还想知道该技术对非英语语言的效果如何,并指出微妙的偏见可能会导致它以不同的方式对待不同的口音,休姆表示,它已经通过各种训练数据解决了这个问题。

考恩设想,有一天,语音助手会更加适应你的感受,当你感到沮丧时,会以看似真正的同理心做出回应。随着人工智能语音助手的增多,考恩认为每个语音助手都需要表现出一致的个性和情绪基调,以建立与用户的信任。“我们有很多不同的人工智能可以交谈,”他说。我认为,仅仅能够通过声音来识别一个人,对于这个未来来说是非常重要的。

滑铁卢大学研究情感计算的教授杰斯·霍伊 (Jess Hoey) 表示,值得注意的是,法学硕士只能模仿人类情感,因为他们实际上并没有经历任何情感。他说,在不久的将来,人工智能助手将显得更加具有同理心,但我认为他们实际上不会更加具有同理心。我认为大多数人都会看穿这层薄薄的伪装。

即使机器人背后没有真实的感觉,玩弄用户情感也可能存在风险。OpenAI 表示,它正在仔细研究 ChatGPT 的语音界面,进行研究以确定该界面的成瘾性或说服力。休姆建立了休姆计划,该计划聘请外部专家在开发和部署技术时提供道德准则和监督。

Danielle Krettek-Cobb 是 Hume 的顾问,曾与 Cowen 在 Google 共事,她表示,科技公司在挖掘技术的情感潜力方面相对缓慢,但需要更加雄心勃勃,才能制造出更强大的机器。聪明的。她说,我相信人类智力最重要的方面是社交和情感。这是我们理解世界并与世界建立联系的方式——这是我们最初的界面。

摘要

纽约初创公司 Hume AI 今天推出了一款新的移情语音界面,可以将一系列情感表达的声音以及情感协调的耳朵添加到来自 Anthropic、Google、Meta、Mistral 和 OpenAI 的大型语言模型中,这预示着人工智能助手可能会更频繁地对我们大肆滔滔不绝的时代。此外,与 ChatGPT 一样,您可以在流程中打断 Hume,它会暂停并适应新的响应。)他还想知道该技术对非英语语言的效果如何,并指出微妙的偏差可能会导致它处理不同的口音不同,休谟说它已经通过多样化的训练数据解决了这个问题。我认为,能够通过声音识别一个人,对于未来来说非常重要。这是我们理解世界并与世界建立联系的方式——它是我们最初的界面。