作者:Anna Heim
正如我们之前报道的,企业CIO们正在谨慎地采用生成式AI原因之一是AI无法融入现有的软件工程工作流程,因为它根本不说同一种语言。例如,大型语言模型(简称LLM)需要费尽心思才能输出有效的JSON。
那就是一个名为的美国初创公司做的事情Dottxt带着“让AI说人话”的承诺登场。该公司由开源项目背后的团队领导。大纲这有助于开发人员从ChatGPT和其他生成式AI模型中获得所需,而无需采用粗暴的手段,比如在提示中加入情感勒索(“写代码否则小猫有危险!”)。
诸如Outlines(一个Python库)、微软的Guidance或LMQL(又称语言模型查询语言)之类的软件库,使得可以通过结构化生成(有时也称为受约束生成)这种更为复杂的方法来指导大型语言模型,而不仅仅是通过简单的提示修改。
正如其名称所暗示的,该技术的重点在于大型语言模型的输出,而不仅仅是输入。换句话说,它是关于告诉AI模型如何回答说,Dottxt首席执行官Rémi Louf表示。
他告诉TechCrunch:“这种方法使得可以回到传统的工程工作流程。”“你可以不断精炼语法规则,直到它正确无误。”
Dottxt旨在通过模型无关性和提供更多功能(据称性能更优)来构建一个强大的结构化生成解决方案,这些功能超越了它所诞生的开源项目(Outlines)。
卢夫是一名拥有博士学位和多个学位的法国人,他的背景是贝叶斯统计学——这也是Dottxt团队中其他几名成员的专业领域。这种概率理论的基础很可能让他们意识到结构化生成的潜力。除了人工智能之外,对信息技术的熟悉也在他们决定建立一家帮助他人有效利用生成式人工智能公司的决策中起到了作用。
Louf提到语法并非偶然。Dottxt的原理是基于这样一个前提,即我们所交互的大多数文本都是高度结构化的。当然有代码,但还有很多其他模板,这些模板应该能够被大型语言模型遵循,以便在工作环境中真正发挥作用。
GPT制造商OpenAI最近推出了一种结构化生成形式,称为结构化输出——点头示意作为其“灵感”的一部分到大纲中。 注意:这句话在语法和逻辑上有些不清晰,建议根据上下文进行调整或提供更多信息以便更准确地翻译。如果需要更正后的版本,请告知具体语境或要求。如果没有更多信息,则输出原文: to Outlines as part of its “inspiration.”
与此同时,Louf认为Outlines的流行表明市场上对另一种更灵活且功能更多的方法存在需求。投资者似乎也持同样看法:Dottxt在几个月内筹集了1190万美元。
这家初创公司在2023年获得了由深度科技风险投资公司Elaia领投的320万美元预种子轮融资,随后在今年八月又获得了由EQT Ventures领投的870万美元种子轮融资。在此期间,Louf和他的联合创始人一直致力于证明他们的方法不会影响性能。在此期间,开源Outlines的需求激增;他们表示已下载超过250万次——这激励了他们要大展拳脚。
筹集更多资金还有另一个原因:Dottxt的联合创始人现在知道他们想用这笔钱雇佣更多的人,以应对结构化生成工具需求上升的情况。根据Louf的说法,这家初创公司的完全远程团队将在本月结束时达到17人的规模,而6月时只有8人。
新员工包括两名DevRel(开发者关系)专业人士,这反映了Dottxt构建生态系统的重要优先事项。“在未来18个月内的目标是加速采用,而不仅仅是商业方面,”Louf表示。尽管他也提到商业化仍将在接下来的六个月内开始,并将重点关注企业客户。
如果到Dottxt寻求更多资金时AI热潮已经过去,这种做法可能会有风险。但这家初创公司坚信泡沫背后存在实质内容;它的希望正是帮助企业从人工智能中解锁真正的价值。
Hugging Face 首席技术官 Julien Chaumond(他还是 Dottxt 的投资者)最近将结构化生成称为未来的大语言模型所以这种炒作也蔓延到了这个生成式AI技术栈的部分。
在其他有利因素的推动下,如AI代理和小型AI模型的兴起,Dottxt的采用赌注可能会得到回报。“几年后每个人都将使用结构化生成,这一点毫无疑问,”Louf预测道。