星期二,拥抱面对研究人员发行一家开源AI研究代理,名为“开放深度研究”,由内部团队创建,作为Openai的24小时后的挑战深入研究功能,可以自主浏览网络并创建研究报告。该项目旨在与Deep Research的性能相匹配,同时使开发人员免费使用该技术。
拥抱Face在公告页面上写道:“尽管现在可以在开源的开源中免费提供强大的LLM,但Openai并未透露有关深入研究基础的代理框架的太多透露。”“因此,我们决定着手进行24小时的任务,以重现他们的结果并在此过程中开放式框架!”
类似于Openai的深入研究和Google使用双子座实施自己的“深入研究”(首先于12月推出``在Openai)之前,拥抱Face的解决方案在现有的AI模型中添加了一个“代理”框架,以允许其执行多步骤任务,例如收集信息并构建报告时,它向用户提供给用户结尾。
开源克隆已经取得了可比的基准结果。经过一天的工作,拥抱Face的开放深入研究达到了55.15%的准确性通用AI助手(GAIA)基准测试AI模型从多个来源收集和合成信息的能力。Openai的深入研究在同一基准测试中得分为67.36%。
正如Hugging Face在其帖子中指出的那样,盖亚(Gaia)包含了诸如此类的复杂多步骤问题:
1949年10月的远洋班轮早餐菜单的一部分,后来用作电影《最后的航行》(The Last Voyage)的浮动道具?将项目作为分隔列表,根据从12点钟的位置开始在绘画中的排列以顺时针顺序订购。使用每种水果的复数形式。
要正确回答该类型的问题,AI代理必须寻找多个不同的来源并将它们组装成连贯的答案。盖亚(Gaia)中的许多问题即使对于人类来说也不是一件容易的事,因此他们很好地测试了代理AI的勇气。