作者:Jason Dorrier
如果您想了解人工智能的下一步发展,只需关注数据即可。ChatGPT 和 DALL-E 使用大量互联网数据进行训练。生成式人工智能正在进军生物技术和机器人技术感谢现有或新组装的数据集。那么,展望未来的一种方法是问:哪些庞大的数据集仍然可供挑选?
近日,一个新的线索出现了。
在一个博客文章游戏公司 Niantic 表示,它正在利用 Pokémon Go 玩家及其 Scaniverse 应用程序收集的数百万张现实世界图像来训练新的人工智能。受到大型语言模型的启发聊天机器人,他们将自己的算法称为“大型地理空间模型”,并希望它在物理世界中能够像 ChatGPT 在语言世界中一样流畅。
人工智能的这一时刻是由生成语言、图像以及越来越多的视频的算法定义的。借助 OpenAI 的 DALL-E 和 ChatGPT,任何人都可以使用日常语言让计算机生成逼真的图像或解释量子物理。现在,公司的 Sora 算法正在将类似的方法应用于视频生成。其他公司正在与 OpenAI 竞争,包括谷歌,元, 和人择。
催生这些模型的关键见解是:近几十年来的快速数字化不仅可以为人类提供娱乐和信息,而且还可以为人工智能提供食物。在互联网出现时,很少有人会以这种方式看待互联网,但事后看来,人类一直在忙于收集语言、图像、代码和视频的巨大教育数据集。不管是好是坏——几起版权侵权诉讼正在进行中——人工智能公司收集了所有这些数据来训练强大的人工智能模型。
既然他们知道基本配方效果很好,公司和研究人员正在寻找更多成分。
在生物技术领域,实验室正在利用几十年来建立的分子结构集合来训练人工智能,并用它来建模并生成蛋白质、DNA、RNA 和其他生物分子加快研究速度并药物发现。其他人正在测试大型人工智能模型自动驾驶汽车和仓库和人形机器人——这既是告诉机器人该做什么的更好方式,也是教它们如何在世界中导航和移动。
当然,对于机器人来说,物理世界的流畅性至关重要。正如语言无限复杂一样,机器人可能遇到的情况也是如此。手工编码的机器人大脑永远无法解释所有的变化。这就是为什么研究人员现在考虑机器人构建大型数据集。但它们的规模远不及互联网,数十亿人在互联网上并行工作了很长时间。
物理世界可能有互联网吗?尼安蒂克是这么认为的。它的名字叫《Pokémon Go》。但热门游戏只是一个例子。科技公司已经多年来创建世界数字地图。现在,这些地图很可能会进入人工智能领域。
Pokémon Go 于 2016 年发布,增强现实引起了轰动。
在游戏中,玩家追踪分布在世界各地的数字角色(或神奇宝贝)。使用手机作为一种门户,玩家可以看到叠加在物理位置上的角色,例如坐在公园的长椅上或在电影院闲逛。更新的产品 Pokémon Playground 允许用户将角色嵌入到其他玩家的位置。这一切都得益于该公司详细的数字地图。
Niantic 的视觉定位系统 (VPS) 可以通过单个位置图像确定手机的位置,精确到厘米。在某种程度上,VPS 以传统方式组装位置的 3D 地图,但该系统还依赖于机器学习算法网络(每个位置一个或多个),该网络经过多年的玩家图像和在不同角度、一天中不同时间和不同时间拍摄的扫描的训练。四季,并在世界上留下了自己的位置。
“作为 Niantic 视觉定位系统 (VPS) 的一部分,我们训练了超过 5000 万个神经网络,拥有超过 150 万亿个参数,可在超过 100 万个地点进行操作,”该公司在其最近的博客文章中写道。
现在,Niantic 想要走得更远。
他们希望使用 Pokémon Go 和 Scaniverse 数据来训练单个基础模型,而不是数百万个单独的神经网络。虽然单个模型受到输入图像的限制,但新模型将概括所有模型。例如,面对一座教堂的正面,它会利用它所看到的所有教堂和角度(正面、侧面、背面)来可视化尚未展示的教堂部分。
这有点像我们人类在世界上航行时所做的事情。我们可能看不到拐角处,但我们可以猜测那里有什么——可能是走廊、建筑物的一侧或房间——并根据我们的观点对其进行规划和经验。
Niantic 写道,大型地理空间模型将使其能够改善增强现实体验。但它也相信这样的模型可能会为其他应用提供动力,包括机器人和自主系统。
Niantic 认为它处于独特的地位,因为它拥有一个积极参与的社区,每周贡献一百万个新扫描。此外,这些扫描是从行人的角度进行的,而不是像谷歌地图或自动驾驶汽车那样从街道上进行的。他们没有错。
如果我们以互联网为例,那么最强大的新数据集可能是由数百万甚至数十亿人共同收集的。
与此同时,Pokémon Go 并不全面。尽管地点跨越各大洲,但在任何特定地点都很稀疏,而且整个区域都是完全黑暗的。此外,其他公司,也许最引人注目的是谷歌,长期以来一直在绘制全球地图。但与互联网不同的是,这些数据集是专有的且分散的。
这是否重要——也就是说,是否需要互联网大小的数据集来创建一个在现实世界中像法学硕士在口头上一样流畅的通用人工智能——尚不清楚。
但更完整的物理世界数据集可能来自像《Pokémon Go》这样的东西,只是规模超大。这已经从智能手机开始,智能手机配有传感器来拍摄图像、视频和 3D 扫描。除了 AR 应用程序之外,用户越来越多地被激励使用这些带有人工智能的传感器,例如拍摄冰箱的照片并询问聊天机器人晚餐要做什么。新设备,像AR眼镜一样可以扩大这种用途,为物理世界带来数据财富。
当然,在线收集数据已经引起争议,隐私是一个大问题。将这些问题扩展到现实世界并不理想。
后404媒体发表了一篇关于该主题的文章, 尼安提克添加了注释, – 此扫描功能完全是可选的 – 人们必须访问特定的可公开访问的位置并单击才能扫描。这使得 Niantic 能够为人们提供新型的 AR 体验。仅仅走来走去玩我们的游戏并不能训练人工智能模型。但是,其他公司在数据收集和使用方面可能不那么透明。
受大型语言模型启发的某些新算法也并不简单。例如,麻省理工学院最近构建了一个专门针对机器人技术的新架构。– 在语言领域,数据都只是句子, – 描述这项工作的论文的主要作者 Lirui Wang,告诉TechCrunch– 在机器人技术中,考虑到数据中的所有异质性,如果您想以类似的方式进行预训练,我们需要不同的架构。 –
无论如何,研究人员和公司可能会继续探索类 LLM 人工智能可能适用的领域。也许随着每一个新添加的成熟,它会有点像添加一个大脑区域——将它们缝合在一起,你就会得到像我们一样毫不费力地思考、说话、写作和在世界上移动的机器。
图片: 卡米尔·斯维塔尔斯基在未飞溅
杰森是奇点中心的编辑总监。在转向科学和技术之前,他研究并撰写了金融和经济学方面的文章。他对几乎所有事物都感到好奇,但特别喜欢学习和分享人工智能、计算、机器人、生物技术、神经科学和太空方面的伟大想法和进步。