作者:by University of Sydney
英国文学毕业生转向数据科学家已经开发了新方法对于AI聊天机器人使用的大型语言模型(LLM),用于理解和分析小部分文本,例如在社交媒体配置文件上,在线客户回复或了解响应灾难事件的在线帖子。
在当今的数字世界中,这种短文的使用已成为在线沟通的核心。但是,分析这些片段是具有挑战性的,因为它们通常缺乏共享的单词或上下文。这种缺乏上下文使AI很难找到模式或组相似的文本。
新的研究通过使用大型语言模型(LLM)将大型短文数据集分组为群集来解决该问题。这些集群将数百万推文或评论凝结成模型产生的易于理解的组。
博士学生贾斯汀·米勒(Justin Miller)开发了这种方法,用于通过AI计划的使用,该方法在分析了2020年9月在两天内发布了有关美国总统唐纳德·特朗普(Donald Trump)的推文的近40,000个Twitter(X)用户传记后,成功产生了连贯的类别。
英国文学毕业生米勒(Miller)开发的语言模型将这些传记分为10个类别,并在这些类别的每个类别中分配了分数,以帮助分析高音扬声器,政治倾向甚至使用表情符号的可能职业。
该研究发表在皇家学会开放科学杂志。
米勒说:“使这项研究脱颖而出的是它的重点是以人为中心的设计。大型语言模型创建的群集不仅在计算上有效,而且对人也有意义。
“例如,有关家庭,工作或政治的文本以人类可以直观地命名和理解的方式进行分组。此外,研究表明,诸如chatgpt之类的生成性AI可以模仿人类如何解释这些群集。
“在某些情况下,AI提供了更清晰,更一致的簇比人类评论者的名字,特别是在区分有意义的模式和背景噪声时。”
米勒(Miller)是物理学院的博士候选人,也是计算社会科学实验室的成员,他说,他开发的工具可用于简化大型数据集,获得见解决策并改善搜索和组织。
作者使用大型语言模型(LLMS),使用一种称为“高斯混合物建模”的方法创建了集群,该方法捕获了文本的本质,并且更容易让人类理解。他们通过将人类的解释与生成LLM的解释进行了比较,从而验证了这些群集,该群集与人类评论密切相匹配。
这种方法不仅提高了聚类质量,而且还表明人类评论虽然有价值,但并不是集群验证的唯一标准。
米勒说:“可以手动阅读的大型数据集可以简化为有意义的,易于管理的组。”
应用程序包括:
米勒说:“这种双重用途在聚类和解释中的双重用法开辟了很大的可能性。通过减少对昂贵和主观的人类评论的依赖,它提供了一种可扩展的方法来理解大量文本数据。从社交媒体趋势分析到危机到危机监视或客户见解,这种方法将机器效率与人类理解相结合,以有效地组织和解释数据。”
更多信息:贾斯汀·K·米勒(Justin K.皇家学会开放科学(2025)。RoyalSocietypublishing.org/doi/10.1098/rsos.241692。在arxiv:doi:10.48550/arxiv.2405.07278
引用:英语Lit Grad的AI工具Deciphers Twitter BIOS,帮助文本分析(2025年,1月21日)检索2025年1月29日来自https://techxplore.com/news/2025-01-English-lit-grad-ai-tool.html
该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。