英语轻松读发新版了,欢迎下载、更新

开创性的AI模型在线新闻中发现了隐藏的政治偏见模式

2025-05-23 10:05:36 英文原文

作者:Eric W. Dolan

一项发表在PLOS一个引入了一种大规模的方法,用于使用人工智能在线新闻来源中检测政治偏见。通过分析成千上万的新闻文章,研究人员开发了一个模型,该模型可以预测政治倾向,并解释了为什么媒体以特定方式分类。

媒体报告中的偏见是广泛认可的,但是研究和衡量规模偏差很困难。传统方法通常依赖于人类注释,这些注释受到范围的限制并且自己可能存在偏见。同时,大多数研究都集中在狭窄的偏见表达式上,例如头条新闻,同时忽略了更广泛的行为模式,例如涵盖了哪些主题,多久或给出了多少空间。新研究通过构建一个数据驱动的系统来解决这些局限性,该系统检查大量来源的一系列偏见指标。

``这个项目实际上是作为我硕士论文的一部分开始的,我决心运用我的技术技能来分析社会重要的话题。”ronja thelen-rãnnback,蒂尔堡大学的博士生和Tilburg算法天文台

人们变得越来越持怀疑态度或对新闻感到不满,这很大一部分是由于人们认为的政治偏见而引起的。关于新闻偏见,有很多出色的学术工作,但其中大部分依赖于人类专家分析和标记文章中的偏见。这是彻底的,但是当然,这启发了一些数据驱动的方法,这些方法可以更快地检测到偏见。

但是,数据驱动的方法通常没有提供与专家标签的新闻政治偏见相同的细节和理解,它们也倾向于专注于非常简单的偏见形式。例如,他们在文章中检测到轰动的头条或有偏见的措辞。至关重要的是,专家早已知道,新闻媒体可能会偏见的方式有更多,有时是微妙的方式。例如,插座可能完全避免报告特定主题,或者仅简短地报告它。只有在研究媒体的整体行为,而不仅仅是文章中的文字时,这种偏见才真正可见。

为了对新闻媒体的政治偏见进行大规模调查,研究人员开发了一种基于机器学习的系统,能够对基于网络的新闻媒体的政治取向进行分类。他们从数据中进行了分析事件,语言和音调的全局数据库(GDELT),是监视全球新闻报道的最全面的开放平台之一。该研究的重点是2022年的英语文章,使研究人员可以研究成千上万的新闻网络领域在各种主题中的表现以及这种行为与政治偏见的关系。

第一步涉及将原始文章级数据转换为结构化的出口级数据集。GDELT标记新闻文章,其主题标签从犯罪和移民到气候变化和经济主题,并提供元数据,例如音调,单词计数,以及文章是否包括图像或视频之类的视觉内容。这些数据点是不同类型的媒体偏见的代理,包括音调偏见(故事是如何充满情感的或中立的),选择偏见(涵盖或忽略的主题)和大小偏见(对不同的主题给出了多少空间)。

为了构建代表性的样本并降低噪音,Thelen-rãnnback和她的同事们过滤了主题,这些主题要么晦涩难懂,要么显得过于不经常出现,最终获得了500多个主题和近7,000个Web域功能。

除了GDELT数据外,研究人员还通过媒体偏见事实检查的信息补充了他们的数据集,该信息是一个独立的组织,该组织根据政治倾向,事实准确性,网络流量和原籍国的新闻自由来评估媒体媒体。这些出口级的功能,例如域名是报纸还是电视台,或将其评为可信度纳入了实验的一个版本中,以评估它们是否可以提高分类准确性。

然后,研究人员创建了两组基础真理政治偏见标签。一个人来自媒体偏见事实检查,人类专家将每个出口分类为五点范围:左中,左中,最不偏见,右中间和右。另一个来自罗伯逊及其同事的一项研究,该研究根据Twitter用户行为推断了政治倾向。在这种方法中,假定注册民主党人经常共享的网站左右倾斜,共和党人共享的网站被认为是正确的。这些连续分数分为相同的五个政治类别进行比较。

使用这些地面真相标签,研究人员培训和测试了多个机器学习模型,包括馈送前馈神经网络,支持向量机(SVM),ADABOOST和XGBOOST分类器。它们还包括两个大型语言模型(GPT-4O-Mini和Llama 3.1)作为基线比较,要求他们在没有任何微调或其他培训的情况下对政治偏见进行分类。

在所有实验中,根据分类精度和接收器操作特征曲线(AUC)下的面积进行评估模型性能,该曲线衡量了模型能够区分类别的模型。

神经网络始终优于其他模型。当在使用媒体偏见事实检查标签时,接受完整的功能培训时,包括传统的基于音调和替代性偏差指标(例如文章计数和图像存在)的精度为76%,AUC得分为81%。这标志着大多数基线模型的显着改善,该模型只是预测了最常见的类别,并且仅实现了45%的精度。令人惊讶的是,语言模型的表现并不比大多数基线更好,通常默认为大多数媒体的偏见标签。

Thelen-rãnnback告诉PSYPOST,我们使用了大型语言模型(GPT-4O-Mini和Llama 3.1),以了解与较小的传统机器学习模型相比它们的性能。他们一点都不好,尽管值得注意的是,我们对它们的实施非常简单。然而,鉴于目前围绕大型语言模型有很多炒作,我们表明它们并不总是表现最好的,而较小的模型对于许多任务都足够了。”

研究人员还检查了不同类型的功能是否影响模型性能。当模型仅针对传统偏见特征(例如音调和情感)培训时,性能就会降低。当仅针对主题覆盖和媒体影响力等替代功能进行培训时,性能得到了改善。但是最好的结果来自将所有功能一起使用,这表明一种多方面的方法来检测偏见,其中包括涵盖了什么主题,给它们提供了多少空间以及是否使用视觉效果。

Thelen-rãnnback解释说,我们的工作使用了一个现有的数据库,该数据库跟踪全球新闻(GDELT),通过机器学习自动将新闻媒体的政治偏见标记为政治偏见。我们说明了多种形式的偏见,截至目前,在该领域有些罕见。我们表明(毫不奇怪)这使得与仅查看BIA的单一表达相比,发现政治偏见变得容易得多。”

为了使结果可解释,研究人员使用了一种模型不足的解释性技术,称为Shap(Shapley添加性解释)。Shap分配了模型中使用的每个功能的重要性值,显示了哪些变量对特定预测的影响最大。这些解释表明,与文章有关的特征依靠政治上有指控的主题,例如枪支拥有,环境监管和选举欺诈,通常是最有用的。在某些情况下,诸如自然灾害或卫生设施之类的更令人惊讶的主题也起着作用,尽管其相关性的原因尚不清楚。

在一个说明性示例中,模型准确分类布赖特巴特作为右翼出口,由于其关于犯罪相关主题(例如卡特尔,绑架和抢劫)的否定性色彩频率。相似地,监护人由于非常强调不平等和社会运动,因此正确地确定为左倾。这些见解提供了一个窗口,不仅是模型分配的标签,还为何得出结论,以解决对以前的机器学习方法的重大批评,这些方法将模型视为黑匣子。

我们使用一种解释性工具来为每个分类提供推理,因此我们的模型不只是说``布赖特巴特是正确的,但实际上表明,布赖特巴特(Breitbart)讨论了许多与犯罪有关的主题,这就是促使模型将其归类为右翼的模型。

为了测试两个标签系统的可靠性,研究人员比较了媒体偏见事实检查的频率和基于Twitter的方法的频率。他们发现,只有46%的Web域在两个系统上共享了相同的标签,表明分歧很大。但是,考虑到偏见检测的主观性质,这并不令人惊讶。即使是两个人类宣传的媒体偏见事实检查,另一个称为Allsides”的平台仅同意了57%的域名。这表明,尽管人类标签仍然是黄金标准,但自动得出的标签并不是差异更糟,当手动评估不可用时可能会有用。

Thelen-rãnnback说,我们试图使用机器来表征新闻来源的偏见而不是人类。”机器学习使我们能够确定新闻媒体是否表现出更大的偏见,比人类可能不考虑的方式要快得多。例如,我们看到某些意外的话题像气候灾难有关这些模型的信息,但是人类专家经常不考虑这些灾难。”

新闻媒体可能会以多种不同的方式偏见,而其中一些新闻媒体目前尚未被充分考虑。我们希望改变这一点可能有助于该领域的进步。我们还试图提供一些透明度,说明为什么特定的渠道被认为是有偏见的,这将变得越来越重要,以确保公众能够理解和信任他们消耗的新闻。希望这能导致一个更有信息的社会和更健康的政治环境。”

但是有一些警告要考虑。Thelen-râ-rãnnback指出,目前,获得输出需要一些技术专业知识。我们也依靠左右政治分歧,但这可能不是全球最合适的。然而,如果需要,我们的方法确实很容易允许不同的政治标签。

展望未来,研究人员希望扩展其系统,以对媒体内容的其他维度进行分类。Thelen-rãnnback解释说,理想情况下,我们将能够将其从政治偏见扩展到其他相关方面,例如虚假信息或不可靠性。”•目前,我们还在寻找更广泛的互联网。具体来说,我们研究了搜索引擎对两极分化主题的反应,这非常令人兴奋,因为如今搜索引擎是最值得信赖的新闻来源。”

这项研究,自动大规模的政治偏见发现新闻媒体,由RonjaRãnnback,Chris Emmery和Henry Brighton撰写。

关于《开创性的AI模型在线新闻中发现了隐藏的政治偏见模式》的评论


暂无评论

发表评论

摘要

PLOS的一项新研究提出了一种机器学习方法,以使用人工智能检测在线新闻中的政治偏见。通过分析2022年以来的数十万文章,研究人员创建了一个模型,该模型可以根据各种指标,例如音调,主题覆盖和视觉内容存在来预测政治倾向。该研究利用了GDELT和媒体偏见事实检查的数据,其准确率为76%,AUC得分为81%。该方法还为其分类提供了解释性,提供了有关为什么某些媒体被归类为政治上有偏见的见解。这种方法通过提供更快的,数据驱动的解决方案来规模测量媒体偏见,从而解决了传统人类注销方法的局限性。