英语轻松读发新版了,欢迎下载、更新

专业数据可以改善AI

2025-01-29 07:11:46 英文原文

如果您发现她的培训包括阅读Reddit帖子,X线程和小报的头条新闻,您会信任财务顾问吗?从本质上讲,这是我们在使用大型语言模型(例如Openai的GPT-4和Anthropic的Claude 3.5十四行诗)建立的财务模型时所做的。这些LLM通常在诸如Internet的Common Crawl之类的大型,多样化的数据集上进行了预告,它们的信息来自数十亿个网页,包括其所有错误信息和偏见。尽管这些模型接受了进一步的培训,以学会产生人类想要的各种反应,但绝大多数培训数据仍来自互联网。

芝加哥展位研究专业人员Siyan Wang和布斯布拉德福德税``设计一种方法来减少与投资决策有关的内容中的偏见和地面LLM。他们创建了BeanCounter,这是一个从公司申请和公司披露文件中得出的大规模面向业务的数据集,在法律上要求企业保持准确。这些文件受到监管审查的约束,提交它们的公司可能会面临法律上的误解后果。研究人员认为,这使它们成为AI培训的更可靠的基础,从而导致财务LLMS更准确且输出有毒内容的可能性较小。

研究人员指出,据他们所知,BeanCounter是最大的,最全面的以业务为导向的文本。数据集通常在令牌中测量,这是模型从中学习的单词和短语。BeanCounter包括1590亿个令牌。相比之下,虽然普通爬网中的确切代币数量有所不同,但其原始数据包括至少100万亿个令牌,处理后,该数据将减少到少于15万亿个令牌以消除重复。

为了创建BeanCounter,研究人员从证券交易委员会的Edgar数据库中收集了数百万个公共文件,其中包含可以追溯到1996年的文件。这些文件包括年度报告(10-KS),季度文件(10-QS)和所有其他报告,公司必须提交以履行其披露义务。

高质量培训数据的影响

研究人员提取并清洁了文本,删除了重复和无关紧要的内容。据研究人员称,这创建了一个数据集,该数据集提供了广泛的专业书面,事实内容的来源,该数据集在很大程度上没有用于AI培训。。

他们通过拥抱面枢纽公开提供BeanCounter,这是一个在线平台,用于共享和协作机器学习模型,数据集和工具。这使其他研究人员和组织可以利用BeanCounter进一步努力创建更安全的AI系统。

为了衡量新数据集可以带给公司的价值,Wang和Levy使用两个任务进行了特定于财务的实验:命名实体识别和财务短语Bank。NER是一种用于识别和分类关键信息的技术苹果指的是技术公司苹果并确定库比蒂诺作为总部所在的城市。金融短语银行是一项情感分类任务,涉及金融新闻中近5,000个刑期,所有这些都被标记为“正,”,“中性,或负面”,因为它们可能对股票的影响价格。

研究人员进行了进行预处理(通过使用域特异性数据来扩展模型的初始培训以提高任务的性能),从非营利研究小组Eletherai和PHI-1.5的两种现有小型AI模型的Pythia-1.4b和PHI-1.5。Microsoft使用BeanCounter的数据。然后,他们比较了那些经过验证的模型的性能与未暴露于专业数据集的原始版本。结果令人惊讶:在BeanCounter上持续预估计的模型显示,有毒含量的产生降低了33%,同时提高了NER和Financial PhraseBank的性能高达4%。

Wang and Levy还对数据集中的人口组的表示方式进行了分析。他们发现,BeanCounter的商业文件提到了人口统计群体的速度与普通爬行相似,但以毒性较小的方式进行了。例如,当单词亚洲出现在BeanCounter文件中,周围文本平均比Internet内容少了72%。(为了衡量毒性,他们依靠视角,这是一种最先进的分类器来检测毒性语言。)这种模式在他们检查的几乎所有人口统计学描述符中都是如此。研究人员写道,似乎在BeanCounter的原始资料中以更专业和衡量的方式讨论了潜在敏感的主题。

Levy解释说,BeanCounter可用于补充现有数据源。它足够大,它本身就可以为Openai的GPT-4O Mini等模型预识。虽然它太小了,例如,元最大的4050亿参与者lama型号,但作为退火阶段的一部分,它可能会有所帮助来自冗长文档的数据以改善其模型的性能。

Levy说,BeanCounter还可以评估LLM。它的数据基于事实并具有关联的时间戳,因此BeanCounter可以评估模型或AI系统是否提供了不仅准确,而且在特定时间点是正确且相关的答案。

随着AI系统越来越多地整合到整个行业的决策中,高质量,可靠的培训数据的重要性几乎可以肯定会增长。BeanCounter表明,经过精心策划的,特定于域的数据集可以导致AI模型更有能力,更有道德地对准,写Wang和Levy。这表明在其他专业领域(例如法律或医学)中开发专业的AI系统的潜在途径,在法律或医学上,准确性和专业行为至关重要。

研究人员设想了一个未来,AI系统可以向专业而不是社会来源学习,并提供更可靠,更无偏见的见解,同时比他们更大,通用的同类产品更有效,更经济,就像从财务顾问那里获得投资建议一样依靠Twitterverse。

来自芝加哥展位评论的更多信息

您的隐私
我们想证明我们对您的隐私的承诺。请查看芝加哥展位隐私通知,其中提供了有关访问我们的网站时如何以及为什么收集特定信息的信息。

关于《专业数据可以改善AI》的评论


暂无评论

发表评论

摘要

芝加哥大学业务学院的研究人员开发了BeanCounter,这是一个源自业务文件和公司披露的大型数据集,旨在减少接受互联网数据培训的金融语言模型的偏见。该数据集包括1590亿个令牌,使其成为最全面的以业务为导向的文本之一。实验表明,使用BeanCounter继续预处理可将有毒内容的产生降低33%,同时改善命名实体识别和情感分类任务的性能。BeanCounter可以通过拥抱的脸部枢纽公开获得,提供了一种在金融和潜在的其他专业领域创建更安全,更准确的AI系统的方法。