这家伦敦初创公司希望打造一个AI数据的eBay平台

2024-10-15 18:49:00 英文原文

作者:Jeremy Kahn

如果数据是新的石油,那么一家总部位于伦敦的初创公司正力求成为纽约商品交易所的同类市场——一个让AI公司可以与拥有可售数据的出版商和其他企业达成交易的数据交易平台。

名为的初创公司,叫作的创业公司,由于缺少具体名称,无法进行精确翻译,保留原句结构。原文保持不变:The startup, called人类原生AI最近聘请了多名知名前人士谷歌拥有制作内容许可协议和合作经验的高管以及在知识产权和版权问题上有丰富经验的顶级法律顾问。

到目前为止,构建大型语言模型(LLM)并推动生成式人工智能革命的公司大多通过抓取公共互联网免费获取数据,通常很少考虑版权问题。

但迹象表明,这个时代正在迅速走向终结。在美国,针对AI公司因在未经许可的情况下使用从互联网上获取的材料训练AI模型而涉嫌侵犯版权法的一系列诉讼正在法院审理中。虽然有可能法官会裁定此类行为可以被视为“合理使用”,但创建AI模型的公司宁愿避免多年陷入法律纠纷。

在欧洲,新的欧盟AI法案规定,公司必须披露他们是否使用受版权保护的材料训练了人工智能模型,这可能使公司在那里的企业也面临法律诉讼。

人工智能公司已经与主要出版商和新闻机构达成协议,以许可数据用于训练,并确保其模型能够访问最新、准确的信息。OpenAI与出版商Axel Springer签署了为期三年的许可协议,Axel Springer拥有Business Insider。Politico以及多家德国新闻机构,据报道价值“数以百万美元计。”它还与金融时报, 大西洋,和 时间杂志。谷歌与许多出版商有类似的协议。财富与生成式AI初创公司Perplexity签署了许可协议。

初创公司可能因为其数据收集行为可能会使它们面临法律风险而难以获得商业保险,这为许多此类公司使用许可方式获取所需的数据提供了另一个激励。

从技术角度来看,抓取数据也变得越来越困难,因为许多企业已经开始使用技术手段试图防止机器人抓取他们的数据。一些艺术家也开始采取措施应用特殊的数字面具未经许可对它们在网上发布的影响AI模型的数据进行篡改的图片。

此外,最大的大型语言模型(LLM)——这种AI驱动了OpenAI的ChatGPT、Google的Gemini和Anthropic的Claude——已经吸收了整个互联网上公开可用的数据。与此同时,训练有效的较小的人工智能模型,特别是那些专门设计用于特定目的的模型,例如帮助律师起草特定类型的合同、科学家设计新药物或工程师创建蓝图,需要与该任务相关的高质量信息的精选数据集。这种专业化的数据在公共互联网上很少见,因此只能通过许可协议获得。

那就是为什么詹姆斯·史密斯,一位资深的谷歌员工,一个谷歌深度思维公司工程师和产品经理决定与曾在医疗技术公司从事机器学习系统的软件工程师Jack Galilee共同创立Human Native公司。圣杯“我们想知道为什么公司没有一种简便的方式来获取他们所需的训练AI模型的数据,”现为人族本土公司首席执行官的史密斯说道。

即使当AI公司希望以道德和合法的方式获取数据时,他们也经常很难弄清楚谁拥有什么数据,然后再确定与该公司中的哪个人接触来达成授权协议。目前谈判此类协议所需的时间也可能成为快速发展的AI模型开发者的障碍——有些人认为,如果花时间做正确的事情,他们在商业上可能会落后于竞争对手。

人类本土旨在成为一个数字市场,使需要数据的AI系统用户能够轻松连接到拥有这些数据的人,并使用相对标准化的法律合同达成交易。六月,它完成了一轮360万美元的种子轮融资由伦敦的风险投资公司LocalGlobe和Mercuri领导,开始实现这一愿景。其顾问团队中还包括企业家、人工智能开发者和音乐人Ed Newton-Rex,他曾担任生成式AI公司Stability AI的音频团队负责人,但此后成为批评AI公司忽视版权问题的重要人士。

这家初创公司是少数提供数据经纪服务的公司之一。即使Human Native也仅仅处于建立市场的早期阶段,目前平台的测试版本已经向部分客户开放。Human Native计划通过多种方式赚钱,包括在其促成的交易中收取佣金,以及提供工具帮助客户清理数据集和实施数据治理政策。该公司尚未披露其初步平台是否已产生任何收入。

其他已经向AI公司出售数据的公司包括Nomad Data和数据分析平台Snowflake。但Human Native可能很快会面临更多竞争。例如,计算公司创始人兼首席执行官Matthew PrinceCloudflare,有谈论创建一个类似的AI数据市场。

为了运营,Human Native需要在其平台上建立一定规模的买家和卖家群体,并制定标准化的合同条款。这就是该公司最近聘请了一些来自数字合作伙伴关系和知识产权法领域的资深专家的原因所在。

招聘的人才包括马达夫·奇纳帕,他在英国广播公司(BBC)的权利和发展部门工作了十年,然后在谷歌担任搜索巨头与新闻机构合作的负责人长达13年,现在是Human Native公司的合作伙伴副总裁;蒂姆·帕尔默,一位资深人士迪士尼以及谷歌,他在那里也工作了13年,主要从事产品合作,现在为Human Native提供关于合作伙伴关系和业务发展的建议;还有Matt Hervey,他曾是国际律师事务所格罗宁WLG的合伙人,并曾担任美国知识产权法律协会的人工智能分委会主席,编辑了一本有关人工智能法律问题的新书。Hervey目前担任Human Native的法律和政策负责人。

帕默和奇纳帕都在2024年夏天谷歌大规模裁员期间被解雇,这突显了这家科技巨头紧缩开支的程度,导致经验丰富的员工流失,这些人现在正帮助新兴的一批初创公司成长。

“Human Native专注于可能是目前科技界最有趣的问题,”帕尔默告诉我,解释了他为什么有兴趣帮助这个新兴的数据市场。他说,虽然诉讼代表了一种建立AI公司如何使用数据的规则的方法,但商业许可代表了一种更为有效的途径。

帕尔默表示,他在谷歌收购内容的经历意味着他“很清楚外面有什么、谁拥有什么内容、谁是专业的授权方,并且对哪些条款是可以接受的、哪些是不可以接受的也有很好的判断。”关于授权条款。

Chinnappa表示,他将Human Native视为有助于公平竞争的工具,特别是对于小型出版商和权利持有人而言,他认为如果没有这个平台,这些小机构可能会被排除在与AI公司达成的任何协议之外。

“我在谷歌工作时帮助编写了这份计划书,如果你是谷歌、OpenAI、Anthropic、Meta或其他大型AI模型公司之一,你将会与大型媒体公司达成最少数量但规模较大的合作。”他说。

人类本土可能能够帮助小型出版商通过将多个出版商的数据汇集到足够大或经过专门定制的包中,来寻找变现数据的方法,从而吸引AI模型制作商的兴趣。

赫维说,Human Native可以在帮助建立数据许可的规范和标准化合同方面发挥重要作用。“这里更广泛的部分不仅仅是关于法律,而是市场惯例,以及我们有机会影响市场惯例的惊人机会。”他表示。

帕尔默表示,Human Native要能够创建一个让购买AI模型的数据真正无缝衔接的技术平台还需要时间。“这不会eBay“还不完全是,”他说。“这不是一个完全不需要人工干预的方案。”

目前,人类本土的员工正在为AI公司寻找数据集,意识到其平台需要同时具备一定数量的买家和卖家才能正常运作。而且,在促成一个数据卖方与一家AI模型公司的匹配后,这家初创企业的员工还需要与双方进行大量工作,以帮助他们达成交易。

赫维表示,一些商业条款将始终是定制的,并且Human Native希望能够支持定制许可安排,同时也致力于尽量标准化许可条款。

推荐的时事通讯
数据表:紧跟科技行业的动态,提供对业内顶级公司深入分析。
在这里注册。

关于《这家伦敦初创公司希望打造一个AI数据的eBay平台》
暂无评论

摘要

如果数据是新的石油,那么一家总部位于伦敦的初创公司正力争成为纽约商品交易所的数字等价物——一个市场,在这里寻找数据来训练其AI模型的人工智能公司可以与拥有可售数据的出版商和其他企业达成交易。该公司还与《金融时报》、《大西洋月刊》和《时代杂志》签订了协议。Human Native旨在成为一个数字市场,使需要数据用于人工智能系统的一方能够轻松地与拥有此类数据的一方建立联系,并使用相对标准化的法律合同达成交易。其顾问团队包括企业家、AI开发者和音乐家Ed Newton-Rex,他曾领导生成式AI公司Stability AI的音频团队,但后来成为AI公司忽视版权问题的主要批评者之一。Hervey现在是Human Native的法律与政策负责人。