在每个家庭部署人形机器人的梦想创造了一种新型工作。唯一的要求是一条头带、一部智能手机和一份家务清单。
随着人工智能的演变、人形机器人已成为最新前沿在争夺统治地位的竞赛中先进的技术。机器人制造商正在推出一系列新模型,这些模型可以更加敏捷地行走、跳舞和战斗。
但这个新兴行业的圣杯——可以在商店、办公室和家庭工作的通用机器人——需要大量数据来学习如何安全、可靠地工作。有效替代人类。这些数据越来越多地由人们记录自己做平凡的家务活动而创建。
这引发了人们对可用于训练机器人的第一人称镜头的强烈需求,这些镜头也被称为“以自我为中心的数据”或“人类数据”。在过去的几个月里,初创公司通过收集和注释来自世界各地数千名合同工的视频来满足这一需求。
Micro1 机器人数据副总裁 Arian Sadeghi 表示,“制造业、工厂仓库、零售店、疗养院、医院,基本上在每个环境中都需要此类数据,因为动作都是不同的。”Micro1 去年开始招募自己的远程摄像师队伍。
每个人都会收到用于安装相机的头盔、拍摄说明以及烹饪、清洁、园艺和宠物护理等任务清单。工作人员应轮流执行任务,每周至少提交 10 小时的视频。
虽然目前的镜头主要围绕家务,但萨迪吉表示,该公司鼓励承包商对他们拍摄的内容进行试验,以防它最终可以帮助机器人更快地适应新的环境和责任。
“我们告诉他们的是,“如果你认为你想要一个机器人为你做这件事,那就把它记录下来,”萨德吉说。

尽管 Micro1 总部位于加利福尼亚州帕洛阿尔托,但该公司在 71 个国家的不同家庭中拥有约 4,000 名“机器人多面手”,他们每月向该公司发送超过 160,000 小时的视频。Sadeghi 说这还远远不够。
“你可能需要数十亿小时,”他说。– 我们甚至还没有进行人际互动。这只是简单的家务事。 –
他表示,机器人技术对数据不断增长的需求反映了 ChatGPT 的早期发展轨迹,其他人工智能聊天机器人。ChatGPT 经过从互联网收集的数千亿个单词的训练,利用所学到的文本模式来生成对用户提示最可能的响应。
继文本之后,人工智能模型不断发展,依靠现成的在线内容按需制作定制图像和视频。但机器人开发人员需要一组更具体的训练数据,并且缺乏互联网以前提供的同类即时库。
对于像 Micro1 这样的初创公司来说,这成为了一个价值数十亿美元的机会,它们还对视频进行注释,以便机器人能够区分物体、距离和物理运动。市场研究公司估计,在亚洲增长的带动下,数据收集和标签行业平均每年增长约 30%,到 2030 年将达到至少 100 亿美元。
数据注释公司 Objectways 的创始人拉维·拉贾林加姆 (Ravi Rajalingam) 提供音频和视觉数据来训练人工智能驱动的虚拟助手和自动驾驶汽车,然后去年将重点转向机器人技术。自从他开始雇用承包商收集人类数据以来,他发现提交的视频中只有大约一半是可用的。
尽管如此,由于他 90% 的客户都在美国,而且他们认为美国消费者有足够的消费能力尽早采用人形机器人,因此一些人愿意为美国家庭的数据支付更多费用,尽管时薪可能是越南或印度工人的三倍。
– 印度厨房与美国厨房非常不同。印度的扫帚与美国的扫帚有很大不同。因此,多样性很重要,但这取决于您首先要将机器人放置在哪里,”Rajalingam 说。“这就是我们在世界各地收集的原因。”

几十年来,机器人主要接受人类使用遥控器完成任务的训练。但这需要大量昂贵的硬件。最近,一种更便宜的选择是使用软件来模拟虚拟场景,尽管它对于与物理对象的交互(例如拿起玻璃杯)通常不太有效。
“对于数据来说,始终需要在质量和数量之间进行权衡,”Sharpa 市场拓展副总裁 Alicia Veneziani 说道,Sharpa 是一家总部位于新加坡的机器人初创公司,专门生产机器人手。
中国正在大量投入国家投资进军高新技术产业,已宣布计划在全国建立至少60个机器人培训中心。技术研究公司Interact Analysis驻上海分析师马可·王(Marco Wang)表示,迄今为止,中国批量生产的大多数人形机器人都是为了训练和研究而购买的。
但到去年年底,该行业开始接受使用人类数据作为中间解决方案,因为唯一的成本是 GoPro、Meta 眼镜或智能手机等记录设备,以及根据地区不同而在 5 至 20 美元之间的时薪。
——这里的想法是:好吧,我不想让机器人来完成这项任务。我希望人们能够完成这项任务,”他说。– 这样,您就不需要为机器人付费,只需为设备和人员付费。 –
王说,他看到日本和韩国的商业模式与中国的数据收集中心类似,但在东南亚设有基地,可以利用更便宜的劳动力。特斯拉一直在加利福尼亚州弗里蒙特的自有设施中训练其 Optimus 人形机器人,并计划在德克萨斯州奥斯汀进行扩张。王表示,美国和欧洲倾向于支持英伟达(Nvidia)倡导的模拟培训,该公司设计了世界上最先进的计算机芯片。
然而,在一个二月报告Nvidia 表示,将超过 20,000 小时的第一人称视频纳入机器人训练中,将卷 T 恤、整理扑克牌、拧开瓶盖和使用注射器等任务的成功率提高了 50% 以上。
“如果你只依赖一种数据收集方式,它可能不是最好的方法,”王说,他预计公司将越来越多地结合战略。– 未来,它将是不同方法的混合体。 –

数据注释公司 Labellerr AI 的联合创始人 Puneet Jindal 表示,自主机器人的转折点出现在三年前,当时支持 ChatGPT 的大型语言模型催生了一种新算法,可以将视觉提示转化为身体动作。曾经被编程用于重复性任务的机器人可以开始感知和导航周围的世界。
他的公司今年开始从印度制造工厂的工人那里收集自己的第一人称视频。金达尔说,在接下来的三年里,优先考虑人类数据是“理所当然的”。但这种繁荣可能不会持续下去。他说,很快这些内容就可以改善模拟训练,或者如果人工智能可以将在线找到的 YouTube 视频转换为第一人称,那么这可能会成为替代品。
“就连机器人实验室也感觉他们不知道 12 个月后需要哪些数据,”他说。
德克萨斯大学奥斯汀分校的机器人研究员 Rutav Shah 表示,通用机器人需要如此多的训练的部分原因是家庭环境的极端不可预测性,因为家具、电器和人类不断移动。
“真正缺少的是人们在一生中获得的对力量、摩擦和不确定性的类人直觉,”沙阿说。“让机器人普遍用于烹饪、清洁等日常家务劳动,这将是自动化的最后一英里。”
国际机器人联合会研究主席亚历山大·维尔表示,到目前为止,人形机器人主要部署在工厂等受控环境中,它们能够在 99.9% 的时间内完成任务。他说,即使是折叠T恤,目前的成功率仍然太低,不具备商业可行性。
– 成功的概率通常在 70% 或 80% 左右。来自制造业,这确实不是我们的行业合作伙伴想要使用的东西,”维尔说。
Objectways 的 Rajalingam 还强调了安全风险:如果机器人正在清洁游戏室,但无法区分洋娃娃和人类婴儿,结果可能是灾难性的。
“如果机器人把我的孩子抱走并把它放进垃圾箱,那么百万美元的诉讼就会随之而来,”他说。
拉贾林加姆说,用婴儿测试机器人还有很长的路要走。不过,他补充说,他们已经从狗开始了。