作者:Paul Sawers
数据是几乎一切在训练人工智能系统时,获取足够的数据来生产符合其承诺的优质产品是一项重大挑战,即使对于财力最雄厚的公司来说也是如此。
这是一个问题艾德维克斯人工智能正如该公司所说,该公司正着手利用生成人工智能和合成数据来“解决数据问题”。更具体地说,Advex 允许客户使用少量图像样本来训练他们的计算机视觉系统,Advex 会从该样本中生成数千张“假”图片。
今天标志着 Advex 在 2019 年正式推出TechCrunch 颠覆 2024在创业战场阶段,尽管它已经通过隐秘阶段获得了一些客户。其中包括其所谓的“七个主要”企业客户,但该公司表示无法随意透露这些客户。TechCrunch 还透露,这家总部位于旧金山的初创公司已筹集 360 万美元资金,其中大部分来自去年 12 月的 310 万美元种子资金,著名支持者包括建设资本,梨VC和劳伦·鲍威尔·乔布斯艾默生集体。
首席执行官佩德罗·帕丘卡与他的 CTO 联合创始人一起创立了 Advex卡西姆·瓦尼一年多前,该公司有六名员工。值得注意的是,这样一家规模较小的初创公司已经进入了拥有真正付费客户的行业,帕丘卡将这至少部分归功于他的背景,以及良好的老式网络和冷漠的联系。事实上,Pachuca 之前是伯克利大学的机器学习研究员,后来加入了 Google Brain 的研究团队。并入 DeepMind。
“如果 ROI(投资回报率)有意义,他们(客户)就会稍微信任我们,”Pachuca 说。– 我在这个领域做了很多研究 – 之前在 Google Brain 的经历让我有了一点可信度。但一开始是冷邮件,这给我们带来了前两个大客户。然后是会议——这就是我参加这么多会议的原因!——
帕丘卡刚结束接受 TechCrunch 的采访就准备前往欧洲,他计划在那里参加各种会议和会议,包括欧洲计算机视觉会议 (ECCV)在米兰(意大利)和想象在斯图加特(德国)。
“欧洲有很多会议,”帕丘卡说。“基本上,我们要去 ECCV 学习和招聘,”帕丘卡补充道。– Vision 更多的是在工业方面,所以我们是来销售的。 –
潜在客户包括机器视觉系统的传统开发人员,例如康耐视或者基恩士,正在努力用更好的人工智能来支持他们的产品。但另一方面,Advex 可能会直接向最终用户企业销售,例如汽车制造商或者物流公司构建自己的内部工具。
例如,汽车制造商可能需要训练其计算机视觉系统来识别汽车座椅材料中的缺陷。然而,即使该公司可以访问数百张不同的图像,事实是没有两个缺陷看起来是相同的。因此,制造商可以上传十几张有泪水的座椅图片,Advex 可以据此推断生成数千张“缺陷”座椅图片,从而建立一个更广泛、更多样化的训练数据池。
这同样适用于几乎任何制造业,从石油和天然气到木制家具——这一切都是为了通过人为创建训练图像来减少数据收集时间和成本。
综合数据不是一个新概念,当然,但是随着人工智能革命正如火如荼地进行,企业正在寻求弥合数据差距——这包括市场研究、调查样本在哪里可能太小了,就像我们在 Advex 等其他风险投资支持的初创公司中看到的那样例如综合人工智能和并行域。
一般来说,Advex 处理两种模型。正如 Pachuca 所说,部署在客户站点上的模型(客户自己的图像训练的模型)只是标准的现成的“开源东西”。“那是因为它们需要很小,而且我们也不相信收益来自模型的架构——它们来自对正确数据的训练,”他说。
但真正的秘密在于该公司的专有技术扩散模型,类似于类似的东西中途或达尔-E,并且用于创建合成数据。“这是习惯性的,而且非常复杂,这就是我们全力以赴的地方,”帕丘卡补充道。
虽然 Advex 的制造重点是其与众不同的方式之一,但该公司认为自己脱颖而出的真正是扩散模型方法。
与其他模拟和建模技术(例如与游戏/物理引擎(例如 Unity)相关的技术)相比,Pachuca 表示,使用扩散意味着无需任何设置,并且生成每个图像/标签对只需几秒钟 - 再加上它更接近现实生活中的数据。
“我们不仅仅是在创造任何图像,我们还在创造你没有的图像,特别是试图了解缺失的东西,然后创造它,”帕丘卡说。“这个“缺失的部分”确实很难,而且非常不可见,但它是我们所做的最大的创新之一。”