Meta的Llama和Google的双子座滞后在专有的任务中
一项新的研究表明,想要抵消气候错误信息的组织需要引入专家来指导模型的培训。
Rob Dobi/Moment/Getty Images Plus
会话AI聊天机器人正在使气候错误信息听起来更加可信,因此很难将虚假与真实的科学区分开来。作为回应,气候专家正在使用一些相同的工具在线检测伪造信息。
但是,在对虚假或误导性的气候主张,通用大语模型或LLMS(例如Meta的Llama和Openai的GPT-4)分类时专门针对专家策划的气候数据培训的模型科学家在3月在费城的AAAI人工智能会议上报道。调查结果显示,希望在聊天机器人和内容审核工具中使用常见的LLMS来检查气候错误信息的需求需要仔细考虑他们使用的模型并引入相关专家以指导培训过程。
与其他类型的索赔相比气候变化错误的信息伊利诺伊州埃文斯顿西北大学的传播专家埃里克·尼斯贝特(Erik Nisbet)说,经常被虚假或误导性的科学信息掩盖,这使得人类和机器更难发现气候科学的复杂性。
为了评估模型,Nisbet及其同事使用一个称为卡的数据集,其中包含来自53个气候怀疑论网站和博客的英文大约28,900段。这些段落分为五个类别:“全球变暖没有发生,'人类温室气体不会引起全球变暖,气候影响还不错,气候解决方案不会工作,气候运动/科学是不可靠的。
研究人员通过从同一数据集的大约26,000段上进行了重新调整或微调Openai的GPT-3.5-Turbo3来建立一个特定于气候的LLM。然后,团队比较了16个通用LLM的微调专有模型的性能,以及在卡数据集中训练的公开可用的小规模语言模型(Roberta)。这些模型将剩余的2900段列出了误导性主张的段落。
Nisbet的团队通过评分每个索赔分为正确的类别来评估模型。微调的GPT模型在测量尺度上得分为0.84。通用GPT-4O和GPT-4模型的得分较低,分别为0.75和0.74,可与小罗伯塔小型模型的0.77分数相当。这表明,包括培训期间的专家反馈可以提高分类性能。但是,其他非专有模型进行了测试,例如由元和Mistral测试的模型,表现较差,记录得分仅为0.28。
维也纳复杂性科学中心的错误信息专家汉娜·梅茨勒(Hannah Metzler)说,这是一个明显的结果。研究人员使用非专有模型时会面临计算限制,并且无法使用更强大的模型。她说,这表明,如果您没有大量资源,那么气候组织就没有,如果您不想使用专有模型,当然会有问题。”这表明政府需要建立开源模型并为我们提供资源来使用它。
研究人员还测试了经过微调的模型和受牌培训的模型,以分类有关Facebook上发布的关于气候变化的914段中的虚假索赔,并通过低限制性网站在X上发布。微调的GPT模型的分类表明,与两位气候传播专家标记的类别相吻合,并表现优于罗伯塔模型。但是,GPT模型努力对气候变化对动物和植物的影响的主张进行分类,这可能是由于训练数据中缺乏足够的例子。
另一个问题是,通用模型可能无法跟上所共享的信息的变化。梅茨勒说,气候错误的信息不断变化和适应。