帮助测试 OpenAI 新大型语言模型 OpenAI o1 的研究人员表示,它代表着聊天机器人对科学的实用性方面迈出了一大步。
你的论文被用来训练人工智能模型?马克斯·普朗克研究所人工智能科学家实验室负责人马里奥·克伦 (Mario Krenn) 表示,几乎可以肯定
在我的量子物理学领域,它比该公司的上一个模型 GPT-4o 提供了更加详细和连贯的响应德国埃尔兰根的光科学。Krenn 是红队中为数不多的为 OpenAI(一家位于加利福尼亚州旧金山的技术公司)测试 o1 预览版的科学家之一,通过对机器人进行测试并检查安全问题。
<自 2022 年 ChatGPT 公开发布以来,驱动此类聊天机器人的大型语言模型平均变得更大更好,具有更多参数或决策节点;更大的训练数据集;以及跨越各种标准化测试或基准的更强能力。OpenAI 表示,其 o1 系列标志着该公司方法的一步改变。观察家表示,这种人工智能(AI)模型的显着特点是,它在某些学习阶段花费了更多时间,思考答案的时间更长,使其速度更慢,但能力更强,尤其是在正确和正确的领域。错误答案可以明确定义。该公司补充说,o1 可以推理复杂的任务,并解决比以前的科学、编码和数学模型更难的问题。目前,o1-preview 和 o1-mini 是一个更小、更具成本效益的适合编码的版本,可供付费客户和某些开发人员试用。该公司尚未公布有关 o1 模型背后有多少参数或多少计算能力的详细信息。
Andrew White,非营利组织 FutureHouse 的化学家位于旧金山的一家专注于人工智能如何应用于分子生物学的机构表示,自公开发布 GPT 以来,过去一年半以来,聊天机器人支持科学任务的能力普遍缺乏改进,让观察者感到惊讶和失望-4。他说,o1 系列改变了这一状况。
引人注目的是,o1 已成为第一个在钻石测试中最难的一系列问题上击败博士级学者的大型语言模型,该测试被称为研究生测试 -级别 Google-Proof QA 基准 (GPQA)1。OpenAI 表示,其学者在 GPQA Diamond 上的得分略低于 70%,o1 的总体得分为 78%,其中物理学得分特别高,达到 93%(请参阅下一级别)。GPQA 开发团队成员 David Rein 表示,这明显高于报告的次佳[聊天机器人]性能。Rein 现在在位于加利福尼亚州伯克利的非营利组织模型评估和威胁研究工作,该组织致力于评估人工智能的风险。他补充道,在我看来,这似乎是模型核心推理能力的重大和根本性改进。
OpenAI 还在国际数学奥林匹克资格考试中测试了 o1。其之前的最佳模型 GPT-4o 仅正确解决了 13% 的问题,而 o1 的得分为 83%。
OpenAI o1 通过使用链式工作原理进行工作。思维逻辑;它在尝试解决问题时通过一系列推理步骤进行自我对话,并在过程中进行自我纠正。
ChatGPT 和生成式人工智能对科学意味着什么
新功能需要权衡。例如,OpenAI 报告称,它收到了一些轶事反馈,称 o1 模型比其前辈更频繁地产生幻觉(尽管该公司的内部测试显示 o1 的幻觉率略低)。
红色-团队科学家指出,o1 在制定科学实验方案方面有很多帮助,但 OpenAI 表示,测试人员还强调了与有害步骤相关的缺失安全信息,例如没有强调爆炸危险或建议不适当的化学遏制方法,并指出怀特说,该模型不适合用于高风险的人身安全任务。
它仍然不够完美或不够可靠,以至于你不会真正想要仔细检查它。他补充说,o1 比新手更适合指导专家。他说,对于新手来说,查看 o1 生成的协议并发现其谎言超出了他们的直接检查能力。
Krenn 认为 o1 会加速通过帮助浏览文献、了解缺失的内容并为未来的研究提出有趣的途径来探索科学。他成功地将 o1 循环到他共同开发的工具中,该工具称为 SciMuse2。他说,它创造了比 GPT-4 或 GTP-4o 更有趣的想法。
加州莫菲特菲尔德湾区环境研究所的数据科学家 Kyle Kabasares 使用 o1 复制了一些编码来自他计算黑洞质量的博士项目。他说,我只是感到敬畏,并指出他花了大约一个小时才完成了他花了几个月的时间。
马萨诸塞州波士顿儿童医院的遗传学家凯瑟琳·布朗斯坦表示,该医院目前正在测试多个人工智能系统,包括 o1-preview,用于连接患者特征和罕见疾病基因之间的点等应用。她说 o1 更准确,并且提供了我认为聊天机器人不可能提供的选项。