作者:Lance Eliot
在今天的专栏中,我对生成式人工智能和大型语言模型 (LLM) 的广泛使用最终将导致人类设计的词汇半途而废这一充满热情的担忧进行了探讨。
说什么?
这件发人深省的事情似乎很奇怪。尽管你可能没有听说过这种人工智能准存在风险,但这是一个特别有趣和令人不安的话题。交易是这样的。一些人断言,生成式人工智能将缓慢但肯定地改变我们的词汇。这会以滴滴的形式发生。人工智能会倾向于强调某些单词而不是其他单词,从而将某些单词提升到人类词汇的首位。与此同时,由于人工智能的缺乏,其他词语将永远消失。
一个令人费解的转折是,人工智能可能会将看似虚构的单词传播到我们的词汇中。那些假话看起来像是真话。人们只会接受它们,因为人工智能选择使用它们。一步一步地,当代已知的人类词汇将转变为完全由人工智能设计的一组词汇。
预计人类会心甘情愿且毫无怀疑地同意这一点。结果是人类词汇最终完全转变为人工智能设计的词汇。哇,这是好事还是坏事?
我们来谈谈吧。
对人工智能创新突破的分析是我正在进行的《福布斯》专栏报道的一部分,内容涉及人工智能的最新进展,包括识别和解释各种有影响力的人工智能复杂性(请参阅链接在这里)。
这里有两条关于词语的不言而喻的真理。
首先,言语使世界运转。这很有道理。如果我们没有话语权,我们就很难沟通。言语是必须的。
其次,言语来来去去。社会倾向于将某些词语提升到相当高的位置,而将其他词语置于广阔的空间中。这是一个连续的策略。任何对莎士比亚的随意审视都会生动地表明,当时的许多词语在今天已经不再被积极使用。
我们不一定要从存在本身中删除单词。通常,我们只是让单词从使用中消失,即使它们作为有效单词正式保留在书籍中。各种言辞逐渐失宠。有时是故意的,有时是偶然的。
思考一下您所知道的单词。
语言学家的各种研究表明,到生命第一年,孩子平均知道大约 50 个单词,到第三年,他们的词汇量增加到 1,000 个单词,到 4 岁,大约 5,000 个单词,到第五年,可能达到 10,000 个单词。这是单词意识的令人印象深刻的进步。
到成年时,成年人平均掌握 40,000 个左右的单词。其中很多词很少被引用。例如,典型的主要报纸往往会坚持使用大约 20,000 个独特的单词,并且通常不会冒险超出该范围。
问题是,如果流行报纸和占主导地位的词汇使用帖子选择将其词汇限制在特定的范围内,这会对整个社会产生影响。人们往往只会看到这些词,因此会倾向于这些词。人们不再那么在意那些他们每天都不会看到的词语。
我认为我们不会声称新闻是故意试图塑造我们的词汇。相反,倾向于使用特定的词语可能是为了让读者的生活更轻松。并无恶意。
让我们转向 AI 模式。
如今,人们越来越多地利用生成式人工智能。
需要写论文吗?请 ChatGPT、Claude、Gemini、Llama、CoPilot 或任何各种生成式 AI 应用程序来为您完成此操作。对亚伯拉罕·林肯的生平有疑问吗?很简单,只需让生成人工智能告诉你诚实的安倍取得了什么成就即可。使用生成式人工智能的人数有些惊人。ChatGPT 每周有 3 亿活跃用户,如果算上所有流通的生成式 AI 应用程序的使用情况,可能有数十亿用户。
这是您以前在使用生成式人工智能时可能没有考虑到的事情。为一个重大问题做好准备。平视触发警报。
在回答您的提示和查询时,人工智能会选择性地选择哪些单词?
很少有人考虑到一个冷酷的事实:人工智能本质上是在过滤或选择你看到的单词。日复一日,如果你热衷于使用生成式人工智能,你会看到一些单词,但也有许多其他单词你看不到。
我确信您已经假设所呈现的单词代表了人类在任何给定自然语言中可能拥有的所有单词。也许是,也许不是。这取决于用于训练人工智能的数据源。有些单词可能在数据训练集中占据主导地位,因此当人工智能设计响应时,基于模式匹配的单词有更大的机会被使用。
还要考虑数据训练集中没有的单词。人工智能基本上没有这些词的记录。因此,人工智能不太可能向你呈现这些词。此外,即使在数据训练期间扫描了各种单词,它们也可能被统计计算为稀有单词,并且人工智能不太可能将它们扔到正在生成的响应中。
借助生成式人工智能,所见即所得。
您没有被明确告知可能使用了其他词语。你认为自己得到了全面的话语的冲动并不一定是这样。仔细考虑一下,如果你高度依赖生成式人工智能,可能会发生什么。
逐渐地,呈现给您的词汇就是您通常倾向于使用的词汇。人工智能经常使用的单词就会成为你经常使用的单词。人工智能通常不使用的词语将成为你很少使用的词语。
生成式人工智能正在巧妙地影响你的词汇量,无论你是否意识到这种情况正在发生。
对于那些人工智能阴谋论者来说,你可能会怀疑人工智能是有感知的,并且这样做是为了破坏人类。抱歉,我们还没有有感知能力的人工智能。AI目前并没有试图扮演魔鬼的角色。话虽如此,黑客等人类可以通过多种方式引导人工智能进行不正当行为,请参阅我的讨论:链接在这里。
我将向您展示几个示例,说明生成式人工智能如何选择性地选择单词。这将有助于使这一庄严考虑更加具体。
假设人工智能正在推广“热情洋溢”这个词的使用。我敢说很少有人经常使用这个词。去年你用过这个词多少次?最近五年?曾经?
以下是人工智能如何让这个词成为主流用法的方法。
想象一下,生成式人工智能日复一日地为数亿使用人工智能的人提供这种“热情洋溢”的认可。
连锁反应将会发生。人们将开始积极使用这个词。他们会像病毒一样传播这个消息。一场双重事件正在发生。人工智能正在推动这个词在我们的词汇中得到显着的使用,人类自己也将进一步推动它的普遍使用。
砰,放下麦克风。
假设生成式人工智能在初始数据训练期间遇到了错误输入的单词。人工智能没有常识性的手段来意识到这个词是一个拼写错误。相反,人工智能会根据单词运行,并将其模式匹配到人工智能的计算词汇中。
开始了。
人工智能不仅会发布错误的单词,还会加倍努力并为错误的单词指定定义。怎么会发生这种事?这都是数字和概率。使用错误的单词的上下文可能会导致人工智能在数学上将该单词与其他各种单词相关联。可以根据这些统计关联来计算定义。
在任何狡猾的巨魔对这个例子感到不安之前,我要指出的是,精明的人工智能开发人员有办法让人工智能筛选输入错误的单词。输错的单词很少会在最初的数据训练阶段之后持续存在。它很可能会被检测到并删除。
您可能熟悉这样的概念:生成式人工智能可以执行所谓的人工智能幻觉,请参阅我的报道链接在这里。这是指生成式人工智能何时构成某些东西。一个句子甚至一个单词都可能完全是虚构的,在任何事实意义上都是毫无根据的。
顺便说一句,我不喜欢人工智能幻觉这个流行语,因为它意味着人工智能系统会以与人类相似的方式产生幻觉,这是人工智能拟人化的一种不幸和错误的形式。这种措辞已经获得了广泛的接受,所以我们似乎不得不坚持下去。悲伤的脸。
这是一个示例,展示了人工智能幻觉出一个完全伪造的单词。
连锁反应再次出现,可以将一个虚构的词变成流行的东西。如果人工智能正在使用它,人们就会认为它一定是一个有效的单词。如果其他人开始使用它,也可以假设该词一定是真实的。
使这个词合法化的恶性循环推动了它的存在。
生成式人工智能可能对人类词汇和语言进化产生重大影响。在短期内,我们几乎不会注意到正在发生的事情。由于法学硕士的普遍使用,长期的语言转变可能会大规模发生。
让这些令人费解的想法有机会深入人心:
通过引入新单词(无论是伪造的还是故意设计的)并普及未充分使用的单词,生成式人工智能可以间接塑造人类语言。你可能会合理地宣称人工智能无疑是语言趋势的影响者。
人类会感到惊讶还是我们会敏锐地辨别人工智能正在做什么?
答案部分取决于是否有足够多的人意识到生成式人工智能可以产生这种社会和文化影响。有人工智能伦理学家提出了这些问题,监管机构和立法者也可以发挥作用,请参阅我的分析:链接在这里。这些利益相关者是否足够,或者这个话题是否会继续被埋藏和未宣布,而不是特别看到曙光?
时间会证明一切。
与此同时,我列出了一份方便的清单,列出了这种语言转变可能采取的八种主要路线。目的是提高认识。存在其他路线,我只是提供一个入门列表。
路径的可能性包括:
继续让你的想法流动,思考这种转变可以发生的其他方式。
我相信您会发现这是一个令人着迷的话题。
如果你的兴趣被这种细心的考虑所激起,那么首先要了解的就是仔细阅读有关词语演变的研究。网上有很多研究。请记住,它们主要是对人类如何进化单词的研究。人工智能如何进化词语的概念是一个较新的领域。
在人类如何进化词语方面,Adam Jatowt 和 Kevin Duh 发表的一篇研究论文“A Framework For Analyzing Semantic Change Of Words Across Time”,作者:Adam Jatowt 和 Kevin Duh,IEEE/ACM 数字图书馆联合会议,2014 年,提出了以下要点(摘录):
我意识到,也许这看起来像是一种厄运和悲观的诱导。我听到了。让我们看看生活光明的一面,好吗?人类词汇可能发生的转变显然还有另一面。
也许使我们的语言同质化会有用。这是否可以让我们在互联日益紧密的全球范围内更轻松地与他人沟通?或许。此外,简化人类语言也许也是有益的。无需背负过多言语的包袱。精简。了解我们使用的词语的实质内容。
就人工智能组成单词而言,我们认为这是理所当然的,包括我们忽略了人类设计的单词,那么,你可以说人工智能正在充当有机语言创新的催化剂。想一想。也许人工智能会设计出一种比人类曾经设计过的任何语言都更好的语言。
早期人类发明了文字。文字是人类进化而来的。下一步可能是人工智能进化的单词,比我们想象的更进一步。瞧,人工智能帮助人类提升到更高的水平。
这是一幅乐观的图画。幸福的脸。
现在最后一个想法。
特蕾莎修女曾说过这样一句富有洞察力的名言:“善意的话语可以简短易懂,但它们的回响确实是无穷无尽的。”假设人工智能一步步让人类几乎只使用善意的话语。我们彼此所说的一切都完全是善意的话语。
回声确实是无穷无尽的。