近年来,人工智能 (AI) 取得了长足的进步,特别是随着大规模语言模型的发展。这些模型在互联网文本等海量数据集上进行训练,在回答问题、总结内容和理解指令等基于知识的任务中表现出了令人印象深刻的能力。然而,尽管取得了成功,这些模型在数据稀缺或高度特定的专业领域仍需要帮助。训练这些模型使其在利基领域表现良好仍然是一个重大障碍,因为只有少量文本可用。
人工智能研究的一个中心问题是模型从小数据集中获取知识的方式效率低下。当前的模型需要接触同一事实的数千种变体才能有效地学习它。当一个事实在专门的语料库中只出现一次或两次时,这就带来了一个问题,使得模型很难从如此有限的信息中理解和概括。当将通用语言模型适应新的、特定领域的领域时,这种低效率更加明显,而该领域缺乏关键概念的多样化表示。
当前的人工智能方法试图通过对海量数据集进行预训练来解决这个问题,这使模型对一般主题有广泛的理解。然而,这种方法对于只有少量信息的领域是无效的。一些研究人员试图通过多次解释原文以创建不同的表示来解决这个问题。然而,这种方法虽然简单,但需要更多的能力来引入新的观点或加深理解。经过几轮重新措辞后,模型性能趋于稳定,因为仅重新措辞并不能为显着的学习改进提供足够的变化。
斯坦福大学的研究人员推出了 EntiGraph,这是一种通过合成解决此问题的创新方法数据生成。该团队由统计系和计算机科学系的成员组成,开发了 EntiGraph,以从小型的特定领域数据集生成大型合成语料库。目标是通过提供更多样化的示例来帮助模型更有效地学习。EntiGraph 识别原始文本中的关键实体,然后使用语言模型围绕这些实体之间的关系生成新的、多样化的内容。此方法甚至可以从少量数据创建多样化的训练集。
EntiGraph 首先从给定数据集中提取重要实体。实体可以是文本的中心人物、地点或概念。识别这些实体后,算法使用语言模型来描述它们的关系。然后将这些描述组合成一个合成数据集,扩展原始语料库,为语言模型提供更大、更丰富的训练数据集。这个过程允许语言模型以原始文本中不存在的方式学习实体之间的联系,从而更好地获取知识。此外,EntiGraph 将这些关系组织成知识图谱,从而可以进一步探索数据集中不同实体如何交互。
EntiGraph 的性能经过一系列实验的测试,结果令人鼓舞。研究人员获取了包含 130 万个标记的语料库,并使用 EntiGraph 生成了包含 6 亿个标记的合成数据集。然后,他们在这个更大的数据集上预训练了语言模型 Llama 3 8B。结果显示,随着合成代币数量的增加,准确度呈对数线性提高。例如,在问答任务中,模型的准确率从使用原始数据集时的 39.49% 提高到在合成语料库上预训练后的 56.42%。此外,使用 EntiGraph 进行的综合预训练可将模型在推理过程中访问原始文档时的准确度提升高达 80%。这表明,即使无法访问原始数据,模型在合成语料库上训练后也能表现良好。
研究还表明,EntiGraph 的性能优于现有方法,例如简单地重新表述数据集。在一项比较中,改写后的语料库仅包含 180 万个标记,模型准确率稳定在 43.08%。相比之下,即使合成数据集增长到 6 亿个标记,EntiGraph 也提高了模型性能。合成更大、更多样化的数据集的能力可以实现更有效的知识转移,证明了这种方法在使语言模型能够从小型专业数据集中学习方面的优越性。
总之,EntiGraph 的引入标志着在解决人工智能模型中的数据效率挑战方面取得了重大进展。该方法成功地从小型数据集中生成了多样化的合成语料库,使模型能够更有效地获取特定领域的知识。这项研究强调了一种新颖的方法,可以促进人工智能训练技术的进一步发展,特别是对于数据有限的专业领域。结果表明,EntiGraph 提供了一种可行的解决方案来克服现有方法的局限性,使语言模型能够更好地适应利基领域并以更高的准确性执行复杂的任务。
查看论文。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。
不要忘记加入我们的 50k+ ML SubReddit
Nikhil 是 Marktechpost 的实习顾问。他正在印度理工学院卡拉格普尔分校攻读材料综合双学位。Nikhil 是一位 AI/ML 爱好者,一直在研究生物材料和生物医学等领域的应用。凭借深厚的材料科学背景,他正在探索新的进步并创造做出贡献的机会。