作者:Eric W. Dolan
一项新研究计算机语音和语言引入了一种机器学习模型,该模型通过对多个数据集进行训练来改进检测。研究人员发现,右倾人物比左倾人物产生更多的仇恨言论和辱骂性帖子。这种创新模型有望更好地识别和调节 Twitter 和 Reddit 等平台上的仇恨言论。
社交媒体的兴起给管理有害内容带来了新的挑战,其中仇恨言论是一个主要问题。Twitter、Facebook 和 Reddit 等平台一直在努力高效、准确地检测和删除此类内容。主要基于机器学习的自动检测方法已被用来识别仇恨言论。然而,现有方法在应用于新数据集时常常会失败,部分原因是不同背景和平台上仇恨言论的定义不一致。
例如,经过训练以检测种族主义语言的模型在识别厌恶女性或仇外评论的任务时可能表现不佳。仇恨言论缺乏普遍定义使问题进一步复杂化。鉴于这一限制,研究团队的目标是创建一个更强大的模型,可以跨多个领域和数据集识别仇恨言论,从而提高跨平台检测的准确性。
“我们小组的长期研究目标包括了解在线有害内容的创建和传播,”该研究的作者、领导该研究的副教授 Marian-Andrei Rizoiu 说道。行为数据科学实验室在悉尼科技大学。
– 因此,我们需要一个仇恨言论检测器,以便能够在线跟踪此类内容。现有分类器的问题在于,它们捕获的仇恨言论定义非常狭隘;我们的分类器效果更好,因为我们考虑了不同平台上仇恨的多种定义。从历史上看,文献已经根据人类专家手动标记的数据来训练仇恨言论分类器。这个过程成本高昂(人类专业知识缓慢且成本高昂),并且通常会导致仇恨言论的定义存在偏见,从而影响贴标签者的观点。”
为了解决泛化问题,研究人员使用多任务学习开发了一种新的机器学习模型。多任务学习允许模型同时从多个数据集中学习,这有助于模型捕获更广泛的仇恨言论模式和定义。这个想法是,同时从多个来源学习可以减少偏见并提高模型在新的或未见过的环境中检测仇恨言论的能力。
研究人员使用从 Twitter、Reddit、Gab 等平台收集的八个公开的仇恨言论数据集来训练他们的模型。这些数据集对仇恨言论的定义和分类各不相同,一些数据集关注种族主义,另一些数据集关注性别歧视,还有一些数据集更普遍地关注辱骂性语言。这种广泛的方法帮助模型从不同的来源学习,使其不太可能过度适应特定类型的仇恨言论。
除了使用现有数据集之外,研究人员还创建了一个名为“PubFigs”的新数据集,其中包含来自 15 位美国公众人物的超过 300,000 条推文。该数据集选择的人物包括右翼和左翼政治人物。通过纳入这个新数据集,研究人员测试了他们的模型检测知名人士和政治背景下的仇恨言论的能力。
他们开发的模型基于预训练的语言模型,称为 BERT(来自 Transformers 的双向编码器表示)。该模型由于其能够理解和生成类人文本的能力而被广泛应用于自然语言处理任务。研究人员通过为每个数据集附加单独的分类层来修改 BERT,使模型能够处理不同类型的仇恨言论。在训练过程中,这些分类层协同工作,优化模型检测所有数据集中仇恨言论的一般定义的能力。
多任务学习模型在检测不同数据集的仇恨言论方面优于现有的最先进模型。它在识别仇恨言论方面表现出更高的准确性,特别是当应用于训练期间未见过的数据集时。这是对以前模型的一个关键改进,以前的模型往往只在训练的特定数据集上表现良好,但在接触新数据时却表现不佳。
例如,在其中一项实验中,研究人员使用了“留一法”方法,即在除一个数据集之外的所有数据集上训练模型,然后在其余数据集上进行测试。在大多数情况下,新模型的性能优于其他仇恨言论检测模型,特别是在涉及不同定义或仇恨言论类型的数据集上进行测试时。这证明了该模型概括和适应新型有害内容的能力。
– 仇恨言论通常没有单一的定义;仇恨言论是一个连续体,因为仇恨可以通过诽谤和直接引用来公开表达,也可以通过讽刺甚至幽默来秘密表达,”Rizoiu 告诉 PsyPost。– 我们的研究开发了工具,通过利用多个训练数据集和一种称为迁移学习的新颖机器学习技术来解释这些细微差别。 –
该研究的另一个有趣发现是将模型应用于 PubFigs 数据集。在被归类为仇恨言论的 1,133 条推文中,1,094 条是由右倾人物发布的,而只有 39 条来自左倾人物。就辱骂内容而言,在5,299条辱骂推文中,右倾人士贡献了5,029条,而左倾群体仅占270条。这意味着左倾人物仅占数据集中仇恨言论的 3.38% 和辱骂内容的 5.14%。
在右倾人士中,某些人因其大量问题内容而脱颖而出。安·库尔特 (Ann Coulter) 是一位保守派媒体专家,以其挑衅性观点而闻名,她对数据集中近一半的仇恨言论负有责任,在 1,133 条带有仇恨标签的推文中,贡献了 464 条。前总统唐纳德·特朗普还发布了大量有问题的推文,其中 85 条被归类为仇恨言论,197 条被归类为辱骂内容。其他著名的右翼人物,例如亚历克斯·琼斯和坎迪斯·欧文斯,也有大量被标记的内容。
另一方面,左倾人物发布的有问题的推文要少得多。例如,参议员伯尼·桑德斯、前总统巴拉克·奥巴马和前第一夫人米歇尔·奥巴马都没有发布过被贴上辱骂标签的推文。亚历山大·奥卡西奥-科尔特斯 (Alexandria Ocasio-Cortez) 只有 4 条推文被归类为仇恨言论,4 条推文被归类为辱骂性言论,而伊尔汗·奥马尔 (Ilhan Omar) 有 23 条推文被归类为仇恨言论,46 条推文被归类为辱骂性言论。
“令我们惊讶的是,辱骂性言论似乎不仅仅是右倾人物的特征,”里佐尤说。– 左倾人物还在他们的帖子中传播辱骂内容。虽然这些内容在大多数定义中不一定被视为仇恨言论,但它们是辱骂性的。”
右倾和左倾人物的仇恨言论和辱骂性帖子的内容也有所不同。对于右倾人物来说,仇恨内容通常针对特定群体,包括穆斯林、妇女、移民和有色人种。
“我们发现,大多数充满仇恨的推文都针对宗教(尤其是伊斯兰教)、政治、种族和民族、妇女、难民和移民等主题,”里佐尤说。“有趣的是,大多数仇恨是针对最弱势群体的。”
相比之下,左倾人物的推文不太关注煽动性言论。该群体中少数有问题的内容通常与社会正义或政治话题的讨论有关。
尽管该研究显示仇恨言论检测有了显着改善,但仍然存在一些局限性。其中一个问题是处理微妙或隐蔽形式的仇恨言论的挑战。研究人员指出,他们的模型可能会错过更细致的仇恨表达,这些表达不会使用明显有害的语言,但仍然会造成敌对环境。未来的研究可以探索如何增强模型检测这些更微妙形式的仇恨的能力。
此外,该研究对标记数据集的依赖存在潜在的局限性。虽然多任务学习有助于减少单个数据集中固有的偏差,但这些偏差并没有完全消除。与许多其他数据集一样,该研究中使用的数据集受到人工标记,这可能会导致不一致或不准确。
“虽然我们的模型构建了更全面的仇恨言论定义和检测,但它们仍然依赖于原始数据集——标签,”Rizoiu 解释道。“也就是说,我们对人类专家的观点进行平均,但如果他们都具有类似的偏见(例如,他们都是具有相似偏见的学者),那么即使我们的包容性模型也会存在这些普遍偏见。”
– 我们小组的研究正在通过数字口碑传播过程对在线内容的传播进行建模。我们特别关注有害内容(错误信息、虚假信息、仇恨言论)及其对线下世界的影响。例如,我们希望了解人们为何会接触有害内容、有害内容为何具有吸引力以及为何它会广泛传播。
“检测只是解决在线问题的第一阶段,”Rizoiu 补充道。– 问题是我们如何在现实的网络世界中开发和部署有效的方法,既可以防止有害内容,又不会妨碍言论自由等权利。像我们的研究这样的工作提供了有效的检测方法,在线平台可以采用这些方法来保护其用户,特别是最脆弱的用户,例如儿童和青少年,免受仇恨言论的侵害。
这项研究,——使用多任务学习推广仇恨言论检测:政治公众人物的案例研究, — 由 Lanqin Yuan 和 Marian-Andrei Rizoiu 撰写。