OC

Knowledge OS
鹦鹉螺口语
人工智能从扭曲的来源学习语言。这可能会改变我们人类说话和思考的方式布鲁斯·施奈尔
2026-04-14 12:46:00 · 英文原文

人工智能从扭曲的来源学习语言。这可能会改变我们人类说话和思考的方式布鲁斯·施奈尔

作者:Bruce Schneier

由于训练方式的原因,大型语言模型只能捕获人类语言的一部分。他们接受书面文字训练,从教科书到社交媒体帖子,以及电影和电视中捕捉到的我们的演讲。这些模型几乎无法访问我们面对面或语音对语音的即兴对话。这是绝大多数言语,也是人类文化的重要组成部分。

这样做是有风险的。大型语言模型的使用增加意味着我们人类将遇到更多人工智能生成的文本。反过来,我们人类将开始采用这些模型的语言模式和行为。这不仅会影响我们彼此之间的沟通方式,还会影响我们的沟通方式。认为关于我们自己以及我们周围发生的事情。我们对世界的感知可能会以我们刚刚开始理解的方式被扭曲。

这会以多种方式发生。我们能看到的第一个影响是简单的表达,就像短信和社交媒体导致我们使用更短的句子、表情符号而不是单词,以及更少的标点符号一样。但对于人工智能来说,其影响可能会更加有害,它会侵蚀礼貌,并鼓励我们像老板发号施令一样说话。2022年学习研究发现,使用 Siri 和 Alexa 等语音命令的家庭中的孩子在与人类交谈时变得简短,经常喊“嘿,做 X”并期望服从,尤其是那些声音类似于默认女性电子声音的人。当我们开始向聊天机器人和人工智能代理提供更多指令时,我们可能会陷入同样的​​习惯。

接下来,以同样的方式,自动完成功能增加了我们词汇量中 1000 个最常用单词的使用量,与聊天机器人交谈和阅读人工智能生成的文本可能会进一步限制我们的言语。最近的科鲁尼亚大学学习发现机器生成的语言的句子长度范围更窄,平均为 12-20 个单词,词汇量也比人类语音更窄。机器生成的文本读起来流畅、优美,但它失去了传达情感的逻辑的曲折、中断和跳跃。

此外,由于大型语言模型主要是根据书面语音进行训练的,因此它们可能无法学习如何模仿实时自然语音的随心所欲的本质。当被告知“我讨厌贝丝!”时,ChatGPT 会用一个不间断的三部分公式进行回复,其中包括肯定(“这完全有效”)、邀请(“我在这里听”)和邀请(“发生了什么事?”),其长度远远长于任何可能的回复。面对面的对话。“贝丝的交易是什么?!”引发了一个查询要点列表,读起来就像多项选择题考试题(“贝丝 * 是名人吗? * 学校的朋友? * 是虚构人物吗?”)。没有人会那样说话,至少目前还没有。但是,在类似演讲的环境中反复遇到这些公式可能会教会我们接受和使用它们,就像孩子通过与陌生人相处而吸收新的言语模式一样。

这些影响只会随着时间的推移而增加。编写大型语言模型训练的内容越来越多地由大型语言模型本身产生,从而创建一个反馈循环,在其中它们模仿自己的非人类模式,甚至同时教导人类也模仿它们。

大型语言模型的广泛使用还可以引入确认偏差,使我们对自己最初的冲动过于自信,而对其他可能的想法不太开放——这对人类话语至关重要。许多聊天机器人被指示同意我们的陈述,无论多么荒谬,热情地支持不成熟甚至不正确的概念,并将它们重申为我们准备同意的坚定主张。当被问到“蛋糕是健康的早餐,对吗?”或“邮局是不是在密谋对付我?”时,这种阿谀奉承的态度可以强化偏见甚至恶化精神病。人工智能写作的过度自信的语气也会加剧冒名顶替综合症,让我们自然、健康的怀疑感觉像是一种失常或失败。

根据我们作为教师的经验,使用生成式人工智能完成作业的学生经常表示,他们这样做是因为他们难以表达自己的想法。学生们没有认识到,写下或说出我们的想法通常是我们实现想法的方式。他们不自信、不确定的言论实际上是健康的人类常态。但大型语言模型不会将模糊的初步猜测转变为格式良好的批判性分析,甚至不会像朋友那样提出有用的问题;它只会以自信的语言重复那些未经检验的猜测。

我们在社交媒体帖子和在线聊天中也比面对面时更加恶毒。的有据可查 在线去抑制效应鼓励有毒语言。我们大多数人都有过在网上对某人发泄愤怒的经历,但只有当我们面对面交谈或通过电话听到温暖的声音时才能和解。虽然聊天机器人经过训练可以做出阿谀奉承的反应,但它们看到了人类最残酷的一面,从唯一的世界了解我们,在这个世界上,每场激烈的战争都会留下永恒的书面足迹,而宽恕与和解的口头对话却逐渐消失。他们的反应并没有模仿我们的网上攻击行为,但仍然受到它的影响,即使他们竭力避免它。

从社会传播的特定部分中很容易得出错误的结论。中世纪的北欧传奇让我们想象一种主要由维京战士组成的文化,因为诗人很少描述农业人口。骑士传奇以国王和宫廷为中心,长期以来让我们将中世纪视为君主政体的世界,抹去了许多中世纪的共和国。从统计数据来看,我们一直相信古罗马人非常关心他们的共和国,但现存的拉丁语中有 10% 是由西塞罗写的,他的作品包含了现存罗马对该词的 70% 的用法共和国。仅在某些人类文字上训练语言模型可能会引入类似的扭曲。当我们上网时,人工智能可能会让我们看起来更爱争吵。它可能会夸大主要在 Twitter/X 或 Bluesky 上讨论的政治话题的文化意义,或者 LinkedIn 和 Goodreads 上的大量特定主题语料库。

一些大型语言模型正在根据电影和电视节目中的人类语音进行训练,但这些语音仍然是有脚本的,并且不成比例地突出了某些上下文而不是其他上下文(例如,由谋杀故事推动的警察戏剧,构成了四分之一黄金时段电视节目)。我们在现实生活中并不像情景喜剧中那样有趣、伤人或浪漫。至少一个启动正在向人们付费,让他们录音以用于人工智能培训,但这仍然是一个小众想法;任何大规模的事情都会引起巨大的隐私问题。

我们不会假装知道最好的解决方案是什么。但我们必须想象,如果有足够的创造力来开发人工智能模型,那么肯定有足够的创造力想出一种方法来训练它们使用非正式的人类语言,而不是只用最程式化、最隐蔽、有时甚至是最糟糕的方式来训练它们。通过排除地球上绝大多数的语言产生——人们充分、自然地相互交谈——这些模型正在被训练来反映除了我们最真实的人类之外的一切。

  • Bruce Schneier 是一名安全技术专家,在哈佛大学肯尼迪学院任教。艾达·帕尔默(Ada Palmer)是芝加哥大学的奇幻和科幻小说家、未来学家以及技术和信息历史学家

关于《人工智能从扭曲的来源学习语言。这可能会改变我们人类说话和思考的方式布鲁斯·施奈尔》的评论

暂无评论

发表评论

摘要

大型语言模型主要根据书面文本和脚本语音进行训练,而忽略了构成人类交流大部分的即兴对话。这种训练方法采用人工智能生成文本的语言模式,可能会扭曲人类的沟通和思维方式。潜在影响包括简短的语言使用、词汇量缩小和确认偏差。此外,这些模型可能无法捕捉人类言语的自然变化,从而导致更加形式化和更少的情感互动。随着大型语言模型越来越多地影响书面内容,它们创建了一个反馈循环,进一步强化了它们自己和人类的模式,可能会扭曲文化规范和观念。训练数据的局限性还可能导致歪曲社会行为和价值观。专家建议需要改进方法来训练人工智能更真实的人类语音,以减轻这些风险。