英语轻松读发新版了,欢迎下载、更新

谷歌的 Gemini AI 刚刚打破了视觉处理的规则——这对你意味着什么

2025-01-14 22:41:01 英文原文

作者:Michael Nuñez

Credit: VentureBeat made with Midjourney

图片来源:VentureBeat 使用 Midjourney 制作

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多


Google 的双子座人工智能悄然颠覆了人工智能的格局,实现了一个很少有人认为可能的里程碑:实时同时处理多个视觉流。

这项突破——让 Gemini 不仅可以观看实时视频,还可以同时分析静态图像——谷歌的旗舰平台并未公布这一突破。相反,它是从一个名为“的实验性应用程序”中出现的任意聊天. –

这一意想不到的飞跃凸显了未开发的潜力Gemini 的架构,突破人工智能处理复杂、多模式交互的能力界限。多年来,人工智能平台一直仅限于管理实时视频流或静态照片,但从未同时管理这两者。有了 AnyChat,这个障碍就被彻底打破了。

“即使是 Gemini 的付费服务也无法做到这一点,”Gradio 机器学习 (ML) 主管兼 AnyChat 的创建者 Ahsen Khaliq 在接受 VentureBeat 独家采访时表示。“现在,您可以与 AI 进行真正的对话,同时它会处理您的实时视频源和您想要共享的任何图像。”

Gradio 团队成员展示了 Gemini AI 在语音聊天会话期间处理实时视频和静态图像的新功能,展示了人工智能中多流视觉处理的潜力。(来源:x.com /@弗雷迪_阿方索_

谷歌的 Gemini 如何悄然重新定义人工智能视觉

Gemini 多流能力背后的技术成就在于其先进的神经结构– AnyChat 巧妙地利用这一基础设施来处理多个视觉输入,而不牺牲性能。这种能力已经存在于Gemini 的 API,但尚未在 Google 的官方应用程序中向最终用户提供。

相比之下,许多人工智能平台的计算需求,包括聊天GPT,将它们限制为单流处理。例如,ChatGPT 目前在上传图像时禁用实时视频流。即使处理一个视频源也会导致资源紧张,更不用说将其与静态图像分析结合起来了。

这一突破的潜在应用既具有变革性,又立竿见影。学生现在可以将相机对准微积分问题显示双子座逐步指导的教科书。艺术家可以与参考图像一起分享正在进行的作品,接收有关构图和技术的细致入微的实时反馈。

Gemini Chat 是一个实验平台,利用 Google 的 Gemini AI 进行实时音频、视频流和同步图像处理,展示了其在高级 AI 应用方面的潜力。(来源:拥抱脸/Gradio)

Gemini 多流 AI 突破背后的技术

AnyChat 的成就之所以引人注目,不仅在于技术本身,还在于它克服了技术限制的方式。Gemini正式部署。这一突破是通过 Google 的专门津贴实现的双子座API,使 AnyChat 能够访问 Google 自有平台中尚不具备的功能。

利用这些扩展的权限,AnyChat 优化了 Gemini 的注意力机制,以同时跟踪和分析多个视觉输入,同时保持对话的连贯性。开发人员可以使用几行代码轻松复制此功能,AnyChat 使用格拉迪奥,一个用于构建机器学习接口的开源平台。

例如,开发人员可以使用以下代码片段启动自己的 Gemini 支持的视频聊天平台,并支持图像上传:

一个简单的 Gradio 代码片段允许开发人员创建一个由 Gemini 驱动的界面,支持同时视频流和图像上传,展示了高级 AI 工具的可访问性。
(来源:拥抱脸/Gradio)

这种简单性凸显了 AnyChat 不仅是 Gemini 潜力的展示,而且是为寻求构建自定义视觉支持 AI 应用程序的开发人员提供的工具包。

AnyChat 的成就之所以引人注目,不仅在于技术本身,还在于它规避了技术局限性的方式。Gemini正式部署。这一突破是通过 Google Gemini 团队的专门津贴实现的,使 AnyChat 能够访问 Google 自有平台中尚不具备的功能。

Ø 实时视频功能谷歌人工智能工作室无法在流式传输期间处理上传的图像。”Khaliq 告诉 VentureBeat。– 目前还没有其他平台实现了这种同步处理。 –

AnyChat 的成功并非简单的偶然。该平台的开发人员与 Gemini 的技术架构密切合作,以扩大其限制。通过这样做,他们揭示了 Gemini 的一面,甚至连 Google 的官方工具都还没有探索过。

这种实验性方法使 AnyChat 能够同时处理实时视频和静态图像流,从根本上打破了“单流障碍”。结果是一个感觉更加动态、直观并且能够处理现实世界用例的平台比竞争对手更有效。

为什么同时视觉处理会改变游戏规则

Gemini 新功能的影响远远超出了创意工具和随意的人工智能交互。想象一下,一名医疗专业人员同时向人工智能展示实时患者症状和历史诊断扫描。工程师可以将实时设备性能与技术原理图进行比较,并接收即时反馈。质量控制团队可以以前所未有的准确性和效率将生产线输出与参考标准进行匹配。

在教育领域,潜力是变革性的。学生可以使用 Gemini 实时分析教科书,同时解决实践问题,获得情境感知支持,弥合静态和动态学习环境之间的差距。对于艺术家和设计师来说,同时展示多个视觉输入的能力为创意协作和反馈开辟了新的途径。

AnyChat 的成功对人工智能创新的未来意味着什么

目前,AnyChat 仍然是一个实验性的开发者平台,在 Gemini 开发者授予的扩大的速率限制下运行。然而,它的成功证明,同步、多流人工智能视觉不再是一个遥远的愿望——它已成为现实,可供大规模采用。

AnyChat 的出现引发了一些具有争议性的问题。为什么 Gemini 的正式发布没有包含此功能?这是一种疏忽,是资源分配方面的深思熟虑的选择,还是表明规模更小、更敏捷的开发人员正在推动下一波创新浪潮?

随着人工智能竞赛的加速,AnyChat 的教训很明显:最重要的进步可能并不总是来自科技巨头庞大的研究实验室。相反,它们可能来自独立开发人员,他们看到了现有技术的潜力,并敢于进一步推动它们。

Gemini 的突破性架构现已被证明能够进行多流处理,为人工智能应用的新时代奠定了基础。谷歌是否会将这一功能纳入其官方平台仍不确定。然而,有一件事是明确的:人工智能可以做的事情和它正式做的事情之间的差距变得更加有趣。

使用 VB Daily 每日洞察业务用例

如果您想给老板留下深刻印象,VB Daily 可以满足您的要求。我们为您提供有关公司在生成人工智能方面所做的事情的内幕消息,从监管转变到实际部署,以便您可以分享见解以实现最大投资回报率。

阅读我们的隐私政策

感谢您的订阅。查看更多VB 时事通讯在这里

发生错误。

关于《谷歌的 Gemini AI 刚刚打破了视觉处理的规则——这对你意味着什么》的评论


暂无评论

发表评论

摘要

谷歌的 Gemini AI 通过名为“AnyChat”的实验性应用程序实时同时处理多个视觉流,取得了重大突破。这一功能使 Gemini 能够同时分析实时视频源和静态图像,这是人工智能平台以前无法实现的壮举。这一成就凸显了 Gemini 架构尚未开发的潜力,并开启了跨行业的变革性应用,包括教育、医疗保健和创意领域。尽管处于实验阶段,AnyChat 证明了同步多流处理是可行的,并且可能很快成为人工智能技术的标准。

相关讨论