作者:Bernard Marr
自动驾驶汽车和人形机器人可以与我们一起行走、说话和工作,这只是人工智能有望在不久的将来改变世界的两种令人惊奇的方式。
但为了能够安全有效地运行,这些物理人工智能工具和应用程序必须能够理解世界。
在今年的拉斯维加斯消费电子展上,NVidia 刚刚宣布推出其宇宙平台,旨在加速物理人工智能系统的开发。
Cosmos 被描述为“机器人技术的 ChatGPT 时刻”,能够生成大量的综合数据。这些数据尽管是人工创建的,但仍然足够接近现实世界,机器人、自动驾驶汽车和其他物理人工智能算法应该能够从中学习。
然而,一些人认为,无论有多少合成数据都无法完全模拟机器需要做好准备的每个现实场景。这就是为什么特斯拉(Tesla)多年来一直通过其装有传感器的汽车收集真实世界的数据。首席执行官埃隆·马斯克发推文,“两个数据源可以无限扩展:合成数据存在“这是真的吗?”问题,而现实世界视频则不存在。”
争论的焦点是,合成数据缺乏现实世界的混乱、不可预测性和复杂性,这对于构建全面、安全的人工智能系统至关重要。让我们更详细地研究一下这个问题。
在自动驾驶系统中,视觉数据(图片)用于训练算法,以确定车辆对道路上不同条件和情况的反应。这些数据可以通过安装在车辆上的摄像头捕获(真实世界数据)。它还可以由人工智能算法根据从研究现实世界数据(合成数据)中学到的规则来生成。
两种方法各有优点和缺点。
合成数据的收集速度通常比实际数据更快、更经济。没有人需要真正出去收集它——它只是由机器生成的。
这也有安全方面的好处。例如,在道路上测试自动驾驶汽车显然会带来一些风险,如果简单地模拟旅程就可以消除这些风险。
情况、环境和许多其他变量也可以定制,而不必等待理想的情况来收集数据出现在现实世界中。例如,研究人员可以模拟罕见的天气事件,在危险场景中测试自动驾驶汽车,或者对复杂的制造缺陷进行建模,而不会出现现实世界的风险或延误。
此外,生成合成数据还可以减少或消除现实世界中可能存在的隐私和数据保护问题,因为不存在敏感个人数据无意中被存储或泄露的危险。
收集真实世界数据时可能会发生这种情况。例如,自动驾驶汽车通过摄像头捕获的汽车牌照可以与其所有者连接,并用于识别和跟踪他们。
另一方面,正如马斯克指出的那样,真实世界的数据具有不可否认的优势,即更加真实。难以综合生成的混乱且难以预测的人类行为更有可能在数据中得到解释。
监管也可能是一个问题。围绕人工智能的法律正在迅速发展,出于安全原因,监管机构可能会要求在某个时间点或在某些司法管辖区对某些模型或应用程序进行真实世界数据的训练。
事实上,现实世界和合成数据对于训练下一代物理人工智能车辆和机器人都可能至关重要。
两者都具有独特的优势和挑战,采用混合方法可能是成功的最佳途径。
诀窍是确定哪一个最适合特定的用例。例如,合成数据对于涉及敏感信息处理或在危险条件下操作的任务或应用程序可能更有用。
另一方面,现实世界的数据在捕捉动态人类行为时可能是最好的,或者有可能遇到混乱的不可预见的事件。
这意味着采用平衡方法的人工智能项目,由那些了解合成信息和现实世界信息如何相互补充而不是相互竞争的人领导,更有可能创造真正的商业价值。