作者:Kyle Wiggers
OpenAI 发布后不久奥1,它的第一个“推理”人工智能模型,人们开始注意到一个奇怪的现象。该模型有时会开始用中文、波斯语或其他语言“思考”——即使是用英语提出问题。
给定一个需要解决的问题 – 例如– “草莓”一词中有多少个 R? – o1 将开始其“思考”过程,通过执行一系列推理步骤得出答案。如果问题是用英语写的,则 o1 的最终答复将是英语。但该模型在得出结论之前会用另一种语言执行一些步骤。
–[O1] 中途突然开始用中文思考, – Reddit 上的一位用户说。
– 为什么 [o1] 随机开始用中文思考? – 另一位用户在一个问题中问道在 X 上发帖。– 对话中没有任何部分(5 条以上消息)是中文的。 –
为什么o1 pro突然开始用中文思考?对话的任何部分(超过 5 条消息)都不是中文……非常有趣……训练数据的影响pic.twitter.com/yZWCzoaiit
– Rishab Jain (@RishabJainK)2025 年 1 月 9 日
OpenAI 尚未对 o1 的奇怪行为做出解释,甚至没有承认这一点。那么可能会发生什么情况呢?
嗯,人工智能专家并不确定。但他们有一些理论。
X 上的几位成员,包括 Hugging Face 首席执行官 Clément Delangue,暗示事实上,像 o1 这样的推理模型是在包含大量汉字的数据集上进行训练的。谷歌 DeepMind 研究员 Ted Shaw 声称,包括 OpenAI 在内的公司都使用第三方中文数据标签服务,而 o1 改用中文就是“中文语言对推理的影响”的一个例子。
“[OpenAI 和 Anthropic 等实验室] 利用[第三方]数据标签服务来提供科学、数学和编码的博士级推理数据。”Xiao 在一篇文章中写道在 X 上发帖。–[F]或专家劳动力可用性和成本原因,其中许多数据提供商都位于中国。 –
标签,也称为标签或注释,帮助模型在训练过程中理解和解释数据。例如,用于训练图像识别模型的标签可能采用对象周围标记或标题的形式,引用图像中描绘的每个人、地点或对象。
研究表明,有偏见的标签会产生有偏见的模型。例如, 平均注释者更有可能将非裔美国人白话英语 (AAVE)(一些美国黑人使用的非正式语法)中的短语标记为有毒,领先的人工智能毒性检测器在标签上进行训练,将 AAVE 视为不成比例的有毒。
然而,其他专家并不认同中国数据标签假说。他们指出 o1 也有可能切换到印地语,泰国,或者在梳理解决方案时使用中文以外的语言。
相反,这些专家说,o1 和其他推理模型可能只是使用语言他们发现实现目标最有效(或产生幻觉)。
“模型不知道语言是什么,也不知道语言是不同的,”阿尔伯塔大学人工智能研究员兼助理教授 Matthew Guzdial 告诉 TechCrunch。“一切都只是文本。”
事实上,模型并不直接处理单词。他们使用代币反而。代币能可以是单词,例如“fantastic”。也可以是音节,例如“fan”、“-tas”和“tic”。甚至可以是单个字符用语言来说——例如-f、-a、-n、-t、-a、-s、-s、-“t,” – i,” – c。”
与标签一样,标记也会引入偏见。例如,许多单词到标记的翻译器假设句子中的空格表示新单词,尽管并非所有语言都使用空格来分隔单词。
人工智能初创公司 Hugging Face 的软件工程师王铁振同意 Guzdial 的观点,即推理模型的语言不一致可能是通过模型在训练过程中建立的关联来解释的。
“通过拥抱每一个语言的细微差别,我们扩展了模型的世界观,并让它能够从人类知识的各个方面进行学习,”Wang写道在关于 X 的一篇文章中。 – 例如,我更喜欢用中文做数学,因为每个数字只是一个音节,这使得计算清晰而高效。但当谈到无意识偏见等话题时,我会自动切换到英语,主要是因为那是我第一次学习和吸收这些想法的地方。”
王的理论是有道理的。毕竟,模型是概率机器。经过许多示例的训练,他们学习了进行预测的模式,例如电子邮件中的“给谁”通常如何出现在“可能涉及的问题”之前。
但非营利性艾伦人工智能研究所的研究科学家卢卡·索尔代尼警告说,我们无法确定。“由于这些模型非常不透明,对已部署的人工智能系统的这种观察是不可能得到证实的,”他告诉 TechCrunch。“这是为什么人工智能系统构建方式的透明度至关重要的众多案例之一。”
Kyle Wiggers 是 TechCrunch 的高级记者,对人工智能特别感兴趣。他的文章曾发表在 VentureBeat 和 Digital Trends 以及一系列小工具博客上,包括 Android Police、Android Authority、Droid-Life 和 XDA-Developers。他和他的伴侣(一位钢琴教育家)住在布鲁克林,他自己也涉足钢琴。偶尔——如果大多不成功的话。