对于那些以抄写口语为生的人来说,这种快速的进步绝对是个坏消息。但对于像《纽约时报》这样的记者来说——他们现在可以以低得多的成本快速准确地转录数百小时的音频——这些人工智能系统现在只是报道工具箱中的另一个重要工具。
自动转录完成后,《纽约时报》记者仍然面临着阅读 500 万字转录文本以挑选相关的、可报道的新闻的艰巨任务。为了做到这一点,该团队表示,它“采用了几种大语言模型”,这让他们可以“在文字记录中搜索感兴趣的主题,寻找著名的嘉宾并识别重复出现的主题。”
总结复杂的文档集并确定主题长期被吹捧作为大型语言模型最实际的用途之一。例如,去年,Anthropic 大肆宣传其克劳德模型的扩展上下文窗口:展示其吸收整个文本的能力了不起的盖茨比正如我们当时所说,“然后交互式地回答有关它的问题或分析它的含义”。最近,我对 Google 的 NotebookLM 及其能力感到惊叹对我的进行有说服力的审查扫雷舰书并以此为基础制作一个引人入胜的口语播客。
不过,法学硕士的文本分析能力存在重要限制。以今年早些时候为例,澳大利亚政府的一项研究发现 Meta 的 Llama 2 在总结公众对政府调查委员会的反应方面比人类差得多。
总体而言,该报告发现人工智能摘要显示“分析和总结复杂内容的能力有限,需要深入理解上下文、微妙的细微差别或隐含的含义。”更糟糕的是,Llama 摘要经常“生成语法正确的文本,但有时实际上不准确”,强调始终存在的虚构问题这些工具固有的。