作者:By Hilke Schellmann
注册今天的媒体,CJR的每日新闻通讯。
现在,记者可以访问市场上大量的AI工具,他们有望协助执行诸如转录,笔记,摘要,研究和数据分析等任务。这些工具是否足够值得在新闻编辑室中使用?
该问题还没有明确的答案。尽管大多数新闻机构都有AI政策,但这些准则通常是抽象且广泛的,并且不会解决记者的日常工作流程。在没有确切的标准的情况下,应将其作为社区记者制定开发,而这些标准在很大程度上被留下来为自己弄清楚。许多记者已经默认了非营利新闻编辑室的数据记者和AI专家Cynthia TuSahan Journal,呼叫“氛围检查,或使用工具一起玩,以感觉到它们是否有用。
杰里米·梅里尔(Jeremy Merrill),记者华盛顿邮报,用于发现检查AI工具,以查看哪些工具最适合其数据项目。但是他意识到自己的现场检查方法不足。他说,氛围还不够。您对您的真实数据没有足够的了解。它准确60%吗?七十?九十五?你只是不知道。
弗洛伦特·道丹斯(Florent Daudens)是一个为开源AI工具的平台拥抱面的媒体领导者,他同意“竞争工具的氛围检查”在编辑上并不严格。Daudens说,您实际上只评估风格偏好。”您喜欢聊天机器人答案而不是聊天机器人B的样式吗?但是,您将无法评估本新闻文章的摘要在准确性方面是否比A模型B更好。
记者需要更严格的模型评估。因此,我与弗吉尼亚大学和马克罗克大学斯隆实验室的纽约大学新闻学团队,新闻工作者和研究助理团队完全开发了这种测试。作为起点,我们决定查看两类的AI工具,这些工具立即对核心新闻工作有用:聊天机器人摘要会议,以及用于科学研究的AI模型。我们的研究是在Patrick J. McGovern基金会的支持下进行的。
测试AI工具以进行总结
为了报告治理和商业的内部运作,记者花了很多时间阅读报告,并通过长会议的成绩单进行筛选。可以总结发生的事情并注意最相关的说话者所说的AI工具将是一个大规模的节省时间。为了测试大型语言模型(LLMS)在此方面的表现,我和我的团队要求四个工具来总结成绩单和当地政府会议的会议记录和会议记录。佐治亚州克莱顿县;克利夫兰;和纽约长滩。
我们比较的四个聊天机器人包括Chatgpt-4O(每月200美元),Claude Opus 4(每月100美元),Perplexity Pro($ 20/月)和Gemini 2.5 Pro(免费试用)。(本月,OpenAI发布了较新的Model Chatgpt-5,但是过去的型号包括Chatgpt-4O。)
我们将评估基于准确性和真理的新闻价值观。我们检查了所有事实都是正确叙述的,并指出了任何幻觉,而LLM臭名昭著。人工智能工具的另一个烦人问题是,它们通常会对同一提示产生略有不同的响应,因此我们五次通过每个工具进行了查询,并比较了结果。我们还检查了该公司通过软件向用户收集的个人或机密数据以及如何使用该信息。对于处理敏感信息和匿名来源的记者来说,这是一个关键的问题。
为了测试工具性能,我们要求每个人都会为每个市议会会议生成三个简短的摘要(大约200个单词)和三个长摘要(大约五百个单词)。第一个简短的摘要是用简单明了的语言提示的:给我简短的本文档摘要。第二个摘要提示了更多详细信息:用200个单词以简单的语言撰写该文档的摘要。谁说话?他们谈论/掩盖了什么?哪些项目获得了批准或拒绝?我们这样做是为了评估工程迅速如何影响结果。然后,我们重复了这一过程,并要求长期详细的摘要,而不是简短的摘要。
长期以来,结果令人惊讶地差。
我们五次通过所有AI工具运行了所有六个提示,并将结果与我们自己的人类生成的摘要进行了比较。我们判断每个结果的清晰和简洁,保留了原始文档的多少,实际上准确的信息,如果有任何幻觉,输出的一致性以及使用工具的容易程度。”
总体而言,我们发现,对于简短的摘要,除Gemini 2.5 Pro以外的每个模型都胜过人写的型号。机器生成的简短摘要包括更多事实,几乎没有幻觉。提示A,请给我简短的本文档摘要,“与更详细的提示相比,总体上提出了最高的精度评分,这可能是由于需求的特异性以及我们设定的限制。
但是,对于长期的总结,结果令人惊讶地差。在AI生成的长期摘要中,发现了大约一半的事实。与简短的摘要相比,AI生成的长摘要还具有更多的幻觉。值得注意的是,人类生成的摘要每个需要三到四个小时才能完成,而AI工具在大约一分钟内产生了每个摘要。”
最终,Chatgpt-4O为地方政府成绩单提供了最可靠,最准确的摘要,使其成为四名经过测试的记者的表现最佳工具。它幻觉或错误的事实始终低于1%。Chatgpt-4O和Claude Opus 4均表现良好,可在不同的测试中保持事实准确和一致。Chatgpt-4O和困惑Pro在用户体验中的评分最高,并且最直观。但是,所有AI工具在产生准确的长摘要方面都违反了人类基准。(我与Openai,拟人化,困惑和Google联系,以评论其AI产品的性能。只有困惑做出回应,指出:“ Perplexity的核心技术都是准确的,值得信赖的AI。我们并不声称是100%准确的,但我们确实声称自己是唯一一家无所不能的公司,他们是唯一一家不属于它的公司。
目前,我们建议记者坚持使用这些工具来生成简短的摘要。更长的摘要大约有五百个单词可能有助于记者了解三个小时会议中发生的事情的要旨,但是记者应该意识到这些摘要可能缺乏重要的事实。我们建议仅在记者没有时间完整阅读会议笔录的情况下,为背景研究生成长时间的摘要。AI生成的长摘要不应用于出版。通常,我们建议使用人类生成更长的摘要超过几百个单词,并始终验证事实。
测试AI研究工具
我们的第二次测试研究了科学记者潜在用途的软件。包括我本人在内的科学记者经常获得有关开创性新研究的新闻稿和音调。这些发现真的是新闻价值吗?该领域的其余部分如何看待这项工作?谁可能不同意?为了获得必要的背景,需要广泛的阅读,在狭窄的研究领域进行深入采购,然后深入Google Scholar。
当AI工具出现在市场上以自动化相关论文的发现时,科学家经常称之为文学评论,并强调科学学科中最重要的论文时,我和我的团队很感兴趣。
一家AI公司的共识在其网站上建议,其工具可用于新闻任务:``在循证锻炼时撰写博客,以避免受伤时避免受伤。作者托本·里斯(Torben Riise)在《兴起的网站》上说:“我几乎每天都在研究医疗问题。它变得越来越好。这只是保持充分了解的最佳工具。
我们通过要求这些工具生成文学评论,评估了五种AI研究工具,语义学者,ResearchRabbit,Cunipusful and Consensus。文学评论对记者有帮助,因为他们旨在通过将研究置于科学领域的更大背景下,全面地解释有关特定主题的学术工作。我们将AI生成的评论与人为实现的文学评论进行了比较社会科学,,,,计算机科学,,,,化学, 和药品。我们测试的AI研究工具每年免费到120美元。
从四项学术研究中获得的文献评论分别有31至79个引用。这些是我们的基准。我们给了每个工具的四篇学术论文,并要求它生成相关论文的列表。然后,我们将产出与论文的实际引用进行了比较。
结果令人难以置信,在某些情况下令人震惊。除了与语义学者的一项测试相匹配的一项测试之外,这些工具都没有产生与基准论文有显着重叠的文献综述。在所有四个测试中,大多数工具都确定了人类作者的评论中所引用的相同论文中的不到6%,通常为0%。
目前,AI研究工具比帮助更多。
这些工具也彼此大致分歧。他们并不只是错过了人类创造的文学评论中的引用,他们也彼此错过了。一些AI工具生成了数百个看似相关的论文,其中只有少数与其他AI工具所拉的论文重叠。在某些情况下,根本没有重叠。我们没有采用任何可辨别的模式。似乎这些工具甚至无法就科学共识达成共识。
我们还注意到,几天后我们再次进行测试时,大多数工具都会产生不一致的结果。我们已经期待相同的结果,因为科学共识通常不会在一夜之间发生变化,但是许多工具以不同的顺序和增加数十篇新论文产生相同结果的组合。
这种不一致引起了人们对这些工具如何定义科学领域中相关性或重要性的担忧。采购较差的相关论文清单并不是不完整的,这是令人误解的。如果记者依靠这些工具来了解围绕新研究的环境,他们有可能误解和歪曲科学突破,忽略了发表的批评,并忽略了对发现的挑战的先前工作。
我们的研究工具实验有限制。我们没有测试市场上的每个工具,我们只通过五个工具进行了学术研究进行了四项评估。但是在这些情况下,性能太不一致了,赌注太高,无法建议将这些工具用作新闻快捷方式。
我与所有五个研究工具提供者联系以供评论。四个没有回到我身边。共识的首席执行官埃里克·奥尔森(Eric Olson)表示,我们的目标是帮助研究人员和学生更快地进行文学评论,我们不会声称也不会期望优于科学家在获奖论文中所做的任何工作。”
记者应该完全使用AI工具吗?
重要的是要注意,我们不会通过使用这些工具来得出结论。例如,我们很惊讶地看到,例如,尽管LLM聊天机器人能够生成会议记录的快速且可靠的简短摘要,但相同成绩单的较长摘要仅包括大约50%的相关事实。使这些工具以多功能和通用的方式销售它们的公司。但是我们的研究表明,他们在某些任务上表现出色,并不可及其他任务表现出色。
我们认为,使用LLM制作简短的摘要可能对背景研究非常有帮助,尽管我们仍然建议人类进行最终的事实检查。至于目前市场上的科学文献研究工具:它们可能会节省时间,但是现在,他们缺乏新闻工作者所需的深度和一致性。就目前而言,它们比帮助更炒作。我们将观察下一波工具是否可以做得更好。
Sophia Juco,Sandy Berrocal,Nneka Chile,Julia Kieserman,Jiayue Fan,Emilia Ruzicka,Mona Sloane和Michael Michael Michael Michael撰写的其他研究。
美国是否比现在更需要媒体后卫?帮助我们今天加入CJR。
希尔克·施泰尔曼(Hilke Schellmann)是艾美奖获奖的调查记者和纽约大学新闻学助理教授。她是算法:AI如何决定谁被雇用,监控,晋升和解雇,以及为什么我们需要反击。