英语轻松读发新版了,欢迎下载、更新

英语Lit Grad的AI工具Deciphers Twitter BIOS,帮助文本分析

2025-01-22 00:00:01 英文原文

作者:by University of Sydney

twitter
学分:CC0公共领域

英国文学毕业生转向数据科学家已经开发了新方法对于AI聊天机器人使用的大型语言模型(LLM),用于理解和分析小部分文本,例如在社交媒体配置文件上,在线客户回复或了解响应灾难事件的在线帖子。

在当今的数字世界中,这种短文的使用已成为在线沟通的核心。但是,分析这些片段是具有挑战性的,因为它们通常缺乏共享的单词或上下文。这种缺乏上下文使AI很难找到模式或组相似的文本。

新的研究通过使用大型语言模型(LLM)将大型短文数据集分组为群集来解决该问题。这些集群将数百万推文或评论凝结成模型产生的易于理解的组。

博士学生贾斯汀·米勒(Justin Miller)开发了这种方法,用于通过AI计划的使用,该方法在分析了2020年9月在两天内发布了有关美国总统唐纳德·特朗普(Donald Trump)的推文的近40,000个Twitter(X)用户传记后,成功产生了连贯的类别。

英国文学毕业生米勒(Miller)开发的语言模型将这些传记分为10个类别,并在这些类别的每个类别中分配了分数,以帮助分析高音扬声器,政治倾向甚至使用表情符号的可能职业。

该研究发表在皇家学会开放科学杂志。

米勒说:“使这项研究脱颖而出的是它的重点是以人为中心的设计。大型语言模型创建的群集不仅在计算上有效,而且对人也有意义。

“例如,有关家庭,工作或政治的文本以人类可以直观地命名和理解的方式进行分组。此外,研究表明,诸如chatgpt之类的生成性AI可以模仿人类如何解释这些群集。

“在某些情况下,AI提供了更清晰,更一致的比人类评论者的名字,特别是在区分有意义的模式和背景噪声时。”

米勒(Miller)是物理学院的博士候选人,也是计算社会科学实验室的成员,他说,他开发的工具可用于简化大型数据集,获得见解并改善搜索和组织。

作者使用大型语言模型(LLMS),使用一种称为“高斯混合物建模”的方法创建了集群,该方法捕获了文本的本质,并且更容易让人类理解。他们通过将人类的解释与生成LLM的解释进行了比较,从而验证了这些群集,该群集与人类评论密切相匹配。

这种方法不仅提高了聚类质量,而且还表明人类评论虽然有价值,但并不是集群验证的唯一标准。

米勒说:“可以手动阅读的大型数据集可以简化为有意义的,易于管理的组。”

应用程序包括:

  • 简化大型数据集:可以手动读取的大型数据集可以简化为有意义的,易于管理的组。例如,米勒先生将本文的相同方法应用于俄罗斯 - 乌克兰战争的另一个项目。通过聚集了超过100万个社交媒体帖子,他确定了10个不同的主题,包括俄罗斯虚假宣传活动,将动物用作人道主义救济中的象征以及阿塞拜疆试图展示其对乌克兰的支持。
  • 获得决策的见解:集群为组织,政府和企业提供可行的见解。企业可能会使用聚类来确定客户对产品的喜欢或不喜欢的产品,而政府可以使用它来凝结广泛的范围成几个主题。
  • 改进搜索和组织:对于处理大量用户生成内容的平台,聚类使组织,过滤和检索相关信息更容易。此方法可以帮助用户快速找到他们寻找的东西并改善整体内容管理。

米勒说:“这种双重用途在聚类和解释中的双重用法开辟了很大的可能性。通过减少对昂贵和主观的人类评论的依赖,它提供了一种可扩展的方法来理解大量文本数据。从社交媒体趋势分析到危机到危机监视或客户见解,这种方法将机器效率与人类理解相结合,以有效地组织和解释数据。”

更多信息:贾斯汀·K·米勒(Justin K.皇家学会开放科学(2025)。RoyalSocietypublishing.org/doi/10.1098/rsos.241692。arxivdoi:10.48550/arxiv.2405.07278

引用:英语Lit Grad的AI工具Deciphers Twitter BIOS,帮助文本分析(2025年,1月21日)检索2025年1月29日来自https://techxplore.com/news/2025-01-English-lit-grad-ai-tool.html

该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。

关于《英语Lit Grad的AI工具Deciphers Twitter BIOS,帮助文本分析》的评论


暂无评论

发表评论

摘要

英语文学毕业生已经开发了一种使用大语言模型(LLM)的新方法,以分析和分类短文片段,例如社交媒体资料和在线帖子。该技术将大量简短文本的数据集分组为可理解的群集,从而有效地分析了数百万推文或评论。博士学生贾斯汀·米勒(Justin Miller)将这种方法应用于讨论美国总统唐纳德·特朗普(Donald Trump)的近40,000个Twitter用户传记,将其分类为一致的团体,这些团体反映了用户可能的职业和政治观点。该研究发表在皇家学会开放科学上,展示了LLMS简化大型数据集,提供可行的见解和增强搜索功能的潜力。