2025-06-09 19:45:00 · 英文原文

帮助机器使用AI理解视觉内容

作者：Zach Winn | MIT News

数据应推动现代企业做出的每个决定。但是大多数企业都有一个巨大的盲点：他们不知道视觉数据中发生了什么。

共同工作正在努力改变这一点。该公司由科迪·科尔曼（Cody Coleman）创立，13岁，孟15和威廉·加维里亚·罗哈斯（William Gaviria Rojas）一个 13创建了一个由人工智能驱动的平台，该平台可以理解图像，音频和视频等数据以解锁新的见解。

共同的平台可以立即搜索，组织和分析非结构化的视觉内容，以帮助企业做出更快，更好的决策。

科尔曼说，在第一大数据革命中，企业从结构化数据中获得价值而变得更好，”指的是来自表和电子表格的数据。但是，现在，世界上大约80％至90％的数据是非结构化的。在大数据的下一章中，公司将必须按大规模处理图像，视频和音频等数据，而AI是解锁该功能的关键部分。

CoActive已经在与几家大型媒体和零售公司合作，以帮助他们理解其视觉内容，而无需依赖手动分类和标记。这可以帮助他们更快地将正确的内容获取正确的内容，从其平台中删除明确的内容，并发现特定内容如何影响用户行为。

从更广泛的角度来看，创始人认为共同行动是AI如何使人类更有效地工作并解决新问题的一个例子。

Coleman说，共同工作的一词意味着同时共同努力，这是我们的宏伟愿景：帮助人类和机器共同努力。”我们认为，视觉比以往任何时候都更重要，因为AI可以将我们拆开，或者使我们团结在一起。我们希望同情成为一个使我们团结在一起并为人类提供新的超级大国的代理商。”

提供计算机视觉

科尔曼（Coleman）在夏天与加维里亚·罗哈斯（Gaviria Rojas）遇到了第一届麻省理工学院中期边缘计划之前。两者都将继续担任电气工程和计算机科学专业的专业，并致力于带来麻省理工学院opencourseware满足墨西哥大学以及其他项目。

科尔曼回忆说，这是企业家精神的一个很好的例子。负责业务和软件开发的负责确实是有能力的。这使我之后开始了自己的小型网络开发业务，并参加了[麻省理工学院课程]的创始人之旅。

科尔曼（Coleman）在数字学习办公室（现为麻省理工学院开放学习）担任研究生研究人员时，首先探索了MIT的AI力量，在那里他使用机器学习来研究人类对MITX的学习方式，该如何由MIT教师和讲师创建的大型，开放的在线课程。

``对于我来说，您可以通过数字学习在MIT进行的这一转型之旅真是太神奇了。这也是我第一次探索视频内容并将AI应用于其中。

麻省理工学院后，科尔曼（Coleman）去了斯坦福大学（Stanford University）获得博士学位，在那里他降低了使用AI的障碍。这项研究使他与Pinterest和Meta等公司合作，在AI和机器学习应用程序上。

科尔曼回忆说，我能够看到人们想处理AI及其内容的未来的地方。”``我看到领先的公司是如何利用AI来推动业务价值的，这就是最初的同时发生火花的来源。我想，如果我们为内容和多模式AI创建企业级操作系统，以使其变得容易呢？

同时，加维里亚·罗哈斯（Gaviria Rojas）一个 2020年搬到湾区，开始工作一个 eBay的数据科学家。作为此举的一部分，他需要帮助运送沙发，科尔曼是他打电话的幸运朋友。

加维里亚·罗哈斯（Gaviria Rojas）说，在乘车上，我们意识到围绕数据和人工智能发生了爆炸。在麻省理工学院，我们获得了大数据革命的前排座位，我们看到人们发明了技术以大规模从数据中解锁价值。我和我意识到我们还有另一个粉末小桶要爆炸，企业收集大量数据，但这一次是多模式数据，例如图像，视频，音频和文本。有一项缺少的技术可以大规模解锁它。那是Ai

创始人继续构建了Coleman所描述的AI操作系统的平台，这是模型不可知的，这意味着该公司可以随着模型的不断改善，该公司可以交换引擎盖下的AI系统。共同的平台包括预先构建的应用程序，企业客户可以使用这些应用程序来进行搜索，生成元数据并进行分析以提取见解。

Coleman说，在AI之前，计算机会通过字节看到世界，而人类会通过视觉看待世界。”现在，使用AI，机器最终可以像我们一样看到世界，这将使数字和物理世界变得模糊。”

改善人类计算机界面

路透社的图像数据库为世界记者提供了数百万张照片。在共同执行之前，该公司依靠记者手动输入每张照片的标签，因此当记者搜索某些主题时，正确的图像将出现。

Coleman说，经过所有这些原始资产是令人难以置信的缓慢而昂贵的，因此人们没有添加标签。”<这意味着当您搜索事物时，即使在数据库中有相关照片也有限。

现在，当Reuters网站上的记者选择启用AI搜索时，Co Active可以根据AI系统对每个图像和视频中的详细信息的理解来提取相关内容。

科尔曼说，这使记者大大提高了结果的质量，这使他们能够比以往任何时候都更好，更准确的故事讲述。”

路透社并不孤单地努力管理其所有内容。数字资产管理是许多媒体和零售公司的重要组成部分，他们今天经常依靠手动输入元数据来分类和搜索该内容。

另一个共同的客户是Fandom，它是世界上最大的平台之一，可在电视节目，视频游戏和电影中拥有超过3亿个活跃用户的信息。Fandom正在使用同时了解其在线社区中的视觉数据，并有助于消除过度的血腥和性化内容。

Coleman说，Fandom过去需要24到48小时来审查每片新内容。”•现在，他们有效地将他们的社区指南编纂了，并且可以平均以约500毫秒的速度生成更细的信息。”

在每种用例中，创始人都将同时化为实现人类与机器合作的方式实现新范式。

Coleman说，在整个人类计算机互动的历史中，我们不得不以机器可以理解的方式弯曲键盘和鼠标以输入信息。”•现在，我们第一次可以自然说话，我们可以与AI共享图像和视频，并且可以理解该内容。这就是我们思考人类计算机互动的方式的根本变化。共同行动的核心愿景是因为这种变化，我们需要一种新的操作系统以及一种与内容和AI合作的新方法。”

关于《帮助机器使用AI理解视觉内容》的评论

暂无评论

OC

帮助机器使用AI理解视觉内容

关于《帮助机器使用AI理解视觉内容》的评论

发表评论

摘要

相关新闻

相关讨论