作者:Mallapaty, Smriti
Google Scholar——最大、最全面的学术搜索引擎——本周迎来了 20 岁生日。一些研究人员表示,经过二十年的发展,该工具已成为科学领域最重要的工具之一。但近年来,使用人工智能 (AI) 改善搜索体验的竞争对手以及其他允许用户下载数据的竞争对手已经出现。
每天使用该数据库的西雅图华盛顿大学计算社会科学家杰文·韦斯特 (Jevin West) 表示,谷歌学术搜索(由位于加利福尼亚州山景城的网络巨头谷歌拥有)对科学的影响是显着的。。但是,“如果说谷歌学术搜索作为主要搜索引擎的地位有可能被推翻的话,那可能就是现在,因为其中一些新工具以及其他地方正在发生的一些创新,”韦斯特说。
格拉纳达大学文献计量学研究员阿尔贝托·马丁·马丁 (Alberto Martín Martín) 表示,Google Scholar 的许多优势——免费访问、信息广度和复杂的搜索选项——现在已被其他平台所共享。在西班牙。
人工智能驱动的聊天机器人ChatGPT 等使用大型语言模型的工具已成为一些科学家在搜索、审查和总结文献时的首选应用程序。一些研究人员已经用谷歌学术来代替它们。“直到最近,Google 学术搜索还是我的默认搜索,”新加坡管理大学学术图书馆管理员 Aaron Tay 说道。它仍然是他的首要任务,但“最近,我开始使用其他人工智能工具”。
尽管如此,考虑到谷歌学术搜索的规模以及它在科学界的根深蒂固,“要推翻它还需要付出很大的努力”,韦斯特补充道。
阿努拉格·阿查里亚谷歌的谷歌学术搜索联合创始人表示,他欢迎为使学术信息更容易查找、理解和利用而做出的一切努力。“我们能做的越多,对科学的进步就越好。”
谷歌学术进入文献检索领域2004年和改变了一切。当时,研究人员通过图书馆查找信息或通过访问科学引文数据库 Web of Science 等付费在线服务来搜索学术论文。同月推出的另一项付费服务是 Google Scholar - Elsevier 的 Scopus,这是一个大型科学参考文献和摘要数据库。
Google 学术搜索可以在网络上抓取任何类型的学术作品,例如书籍章节、报告、预印本和网络文档,包括英语以外的语言。阿查里亚说,我们的目标是“让世界各地的研究人员更加高效,帮助每个人都能够站在科学的共同前沿”。
Google Scholar 与出版商的协议使其能够以无与伦比的方式访问付费专区后面的文章全文,而不仅仅是标题和摘要,这是大多数搜索引擎提供的内容。它根据论文与搜索查询的相关程度对论文进行排名(通常将引用次数最多的文章置于顶部),并建议进一步的查询。其覆盖深度有利于高度具体的搜索。
谷歌拒绝分享该服务的使用数据,但根据网络流量计Similarweb的数据,谷歌学术搜索每月的访问量超过1亿次。
Martín Martín 表示,该数据库还非常擅长引导人们找到文章的免费版本。位于科尔多瓦的西班牙国家研究委员会高级社会研究所的文献计量学家何塞·路易斯·奥尔特加 (José Luis Ortega) 表示,这促进了开放获取运动。
但在其他方面,谷歌学术是不透明的。其中一个关键问题是缺乏对其搜索内容(包括哪些期刊)以及用于推荐文章的算法的深入了解。它还限制其搜索结果的批量下载,这些搜索结果可用于文献计量分析等。“我们对科学领域最有价值的工具之一缺乏深入的了解,”韦斯特说。
阿查里亚表示,谷歌学术主要是一个搜索工具,其主要目标是帮助学者找到最有用的研究。
在过去的几年里,出现了提供此类文献计量数据的竞争对手,尽管没有一家能够超越 Google Scholar 的规模和付费专区对全文文章的访问。一个值得注意的例子是 2022 年推出的索引 OpenAlex。前一年,在网络上抓取学术信息的 Microsoft Academy Graph 已停止使用,并发布了整个数据集。OpenAlex 建立在这个和其他开源学术数据的基础上。用户可以按作者、机构和引文搜索其编录的内容,还可以免费下载其完整记录。“他们正在做我们希望 Google Scholar 做的事情,”Martín-Martín 说。
另一种流行的研究工具 Semantic Scholar 于 2015 年推出,它使用人工智能创建可读的论文摘要并识别其最相关的引文。另一个工具,共识于 2022 年推出,依靠 Semantic Scholar 的数据库来寻找研究得出的问题的答案(West 是 Consensus 的顾问)。Tay 最喜欢的之一是暗中,它使用更复杂的基于代理的搜索,其中自主实体以人类的方式扫描科学文献,并根据其找到的内容调整搜索。谷歌学术搜索需要几分钟(而不是几秒钟)才能给出结果,但 Tay 表示等待是值得的。“我发现返回结果的质量比 Google Scholar 更好。”
Acharya 表示,谷歌学术搜索还使用人工智能对文章进行排名、建议进一步的搜索查询并推荐相关文章。本月早些时候,该公司向其 PDF 阅读器引入了人工智能生成的文章大纲。阿查里亚还表示,搜索工具试图理解查询背后的意图和上下文。他说,这种语义搜索方法基于语言模型,已经使用了大约两年。
谷歌学术尚未做的一件事是包含人工智能生成的搜索查询答案的概述,类似于现在在典型谷歌搜索顶部找到的那些概述。阿查里亚表示,以简洁且包含重要背景的方式总结多篇论文的结论是具有挑战性的。“我们还没有找到应对这一挑战的有效解决方案,”他说。