美国初创公司宣传“人工智能恶霸”角色，以测试领先聊天机器人的耐心

作者：Amelia Hill

想象一下一天的工作，你的主要任务是与电脑打架。没有会议，没有电子邮件，只有你、一把椅子和一个聊天机器人，它疯狂地倾向于认为自己拥有房间里最聪明的头脑。

光是这个职位名称就让人大吃一惊：“AI 恶霸”。但这正是加州一家名为 Memvid 的初创公司提供的服务：花费 800 美元，花 8 个小时测试人工智能的耐心和记忆力。

“你将花整整八小时的时间与领先的人工智能聊天机器人互动，而你唯一的工作就是残酷地诚实地了解它们是多么令人沮丧，”该公司的职位列表州。

这项工作不需要计算机科学学位或专门的人工智能技能。唯一的先决条件是拥有“长期因技术而失望的个人经历”，以及一遍又一遍地问同一问题的耐心。

– 人们必须不断地向聊天机器人重复自己的话。我们希望将每天的挫败感转化为可见的东西，”Memvid 的联合创始人兼首席执行官穆罕默德·奥马尔 (Mohamed Omar) 说道。

这个角色读起来几乎就像是对人类气质和机器智能的压力测试：候选人需要让谈话继续下去，重新审视之前的话题，并温和地强迫人工智能承认它已经失去了踪迹——同时记录一切以供分析。

它与编码或服务器管理相去甚远。这是一种对话驱动的侦探工作，追踪聊天机器人在忘记、捏造或产生幻觉时所犯的错误。

奥马尔告诉《商业内幕》称，该公司认为这项任务是为了强调许多人工智能聊天机器人系统随着时间的推移而失去上下文的持续存在的问题。

– 所有人工智能都依赖于记忆而生存和呼吸。这是圣杯，”他说。“但是 2024 年我们开始业务时，市场上的人工智能内存解决方案并不可靠，这意味着它们会失去上下文并开始产生幻觉。”

这个问题在随后的几年里只会变得越来越严重：经过同行评审纸在 2025 年国际学习表征会议 (ICLR) 上发表的论文发现，即使是领先的商业人工智能系统，当被要求记住持续对话中的事实时，准确性也会下降 30% 到 60%，远远落后于人类的表现。

奥马尔补充说，一名应聘该职位的应届大学毕业生表示，他们每月为人工智能订阅支付近 300 美元。他说，这个人写了“关于他们如何在他们使用过的每个人工智能平台上遇到内存问题的完整咆哮”。

他补充道：“许多申请此项目的人都是使用这些产品的知识工作者。”

正如研究人员和行业分析师所指出的，问题的根本原因有记录的问题在于，公司急于将其人工智能工具连接到庞大的知识库，结果却发现基于检索的系统可以比以往更快地呈现出自信但不正确的答案，但没有可靠的方式来表明他们正在这样做。

当人工智能系统在现实世界中大规模部署时，这种自信的错误可能会造成严重伤害：卫报调查本周，人工智能安全实验室 Irregular 发现，当人工智能代理在模拟企业环境中接受广泛但良性的任务时，它们会绕过安全控制，与敏感数据交互，并在没有直接指示的情况下执行可能有害的操作。

这是现实世界日益困扰的一个问题。法国法律学者达米安·夏洛坦 (Damien Charlotin) 追踪了法律界如何经历人工智能驱动的法律幻觉急剧增加的情况，并报告称，在 2025 年春季之前，每周大约发生两起事件，到了秋季，这一数字已上升到每天两到三起。

这也是医疗保健领域的一个问题。本月早些时候，ECRI 研究所将“解决人工智能诊断困境”列为其首要任务年度榜单2026 年 10 大患者安全问题之一，警告人工智能诊断缺陷可能会降低临床医生的警惕性，特别是在尚未建立监督框架的情况下。

奥马尔表示，他没有接受申请的最后期限，但预计会在未来一两周内缩小合适的候选人范围。

“人工智能恶霸”实验虽然表面上很有趣，但却让世界各地的用户已经遇到了一个问题：在许多方面都非常强大的人工智能系统在其他方面也可能不一致且不可靠。该工作一天的工资为 800 美元。但不这样做的成本可能会高得多。

OC