VLC 媒体播放器背后的非营利组织 VideoLAN 在一次演讲中宣布国际消费电子展到 2025 年,流行的开源多媒体工具的下载量将达到 60 亿次的里程碑。虽然这一成就相当显着,但这个数字可能是保守的,因为该公司可能排除了来自第三方来源的下载数据。与此同时,VideoLAN 的开发人员宣布了其未来计划,展示了他们的下一个重要功能:人工智能驱动的字幕和 100 种语言的实时翻译。该功能目前正在开发中,旨在使用开源人工智能 (AI) 模型实时创建字幕。
有趣的是,VLC 即将推出的人工智能字幕功能似乎从诸如OpenAI 的耳语,一种自动语音识别(ASR)系统,旨在转录声音的进入文本。Whisper 因其使用大规模数据集进行训练来处理各种口音和方言的能力而受到称赞。
VLC 自动字幕生成和翻译基于本地和开源 AI 模型,在您的机器上离线运行,并支持多种语言!演示可以在尤里卡公园的 #CES2025 展位上找到。pic.twitter.com/UVmgT6K4ds2025 年 1 月 8 日
然而,VLC 采取了不同的方法,其中人工智能模型将直接内置于 VLC 应用程序中离线运行。此功能特别值得注意,因为它消除了对互联网连接或对基于云的服务的依赖,而这通常是注重隐私的用户所关心的问题。
在谈到这项新功能时,VideoLAN 总裁 Jean-Baptiste Kempf 说道:“同时,我们有自动翻译功能,可以将字幕翻译成您自己的语言。”重要的是,它在您的计算机上本地离线运行,无需任何云服务。它直接在可执行文件内运行。
人工智能字幕还能够处理各种媒体格式,使其成为希望在无需外部软件的情况下享受跨语言内容的用户的必备工具。据该公司称,人工智能将能够为 100 多种语言的视频生成字幕和翻译,使全球观众更容易使用 VLC。
VideoLAN 尚未确认该新功能的正式发布日期,但预计将在不久的将来作为免费更新发布。更多详细信息将通过该公司的博客分享。
虽然添加人工智能驱动的字幕和翻译是 VLC 向前迈出的一大步,但开发人员如何解决人工智能生成的字幕不准确的常见问题仍然存在疑问,这可能会对用户体验产生负面影响。正如所指出的电脑杂志,人们好奇媒体播放器将使用哪些开源人工智能模型,以及该功能的系统要求是否会导致大量资源消耗。您可能需要一台带有专用 NPU(神经处理单元)的 PC。