OpenAI 的新更新增强了人工智能的语音和视觉功能 - Cointelegraph

2024-10-02 11:18:00 英文原文

人工智能开发商 OpenAI 进入 10 月份,对其 AI 模型进行了多项更新,帮助他们更好地进行对话并提高图像识别能力。

10 月 1 日,OpenAI 发布了四项更新,引入了新工具,旨在让开发人员更轻松地在其模型上进行构建。

它会说话!

一项重大更新是 Realtime API,它允许开发人员使用单个提示创建 AI 生成的语音应用程序。

该工具可供测试,通过流式传输音频输入和输出来支持低延迟、多模式体验,从而实现类似于 ChatGPT 高级语音模式的自然对话。

以前,开发人员必须将多个模型拼接在一起才能创建这些体验。音频输入通常需要在接收响应之前完全上传和处理,这意味着语音到语音对话等实时应用程序的延迟较高。

相关:苹果、谷歌将利用人工智能维持主导地位 Cathie Woods ARK Invest

借助实时 API 流功能,开发人员现在可以实现即时、自然的交互,就像语音助手一样。该 API 运行在 2024 年 5 月发布的 GPT-4 上,可以实时跨音频、视觉和文本进行推理。

AI 现在可以看得很清楚了

另一项更新包括为开发人员提供的微调工具,使他们能够改进从图像和文本输入生成的 AI 响应。

开发人员表示,基于图像的微调器使人工智能能够更好地理解图像,从而增强视觉搜索和对象检测能力。该过程包括来自人类的反馈,他们提供了好的和坏的反应示例。

除了语音和视觉更新之外,OpenAI 还推出了模型蒸馏和提示缓存,允许较小的模型向较大的模型学习,并通过重用已处理的文本来减少开发成本和时间。

其模型的先进功能是一个关键卖点,因为 OpenAI 的大部分收入来自于企业在 OpenAI 技术之上构建自己的应用程序。

据路透社报道,OpenAI 预计明年收入将增至 116 亿美元,高于 2024 年估计的 37 亿美元。

杂志:人工智能可能已经比比特币使用更多的电力,并且威胁到比特币挖矿

关于《OpenAI 的新更新增强了人工智能的语音和视觉功能 - Cointelegraph》
暂无评论

摘要

人工智能开发商 OpenAI 进入 10 月份,对其 AI 模型进行了多项更新,帮助他们更好地进行对话并提高图像识别能力。该工具可供测试,通过流式传输音频输入和输出来支持低延迟、多模式体验,从而实现类似于 ChatGPT 高级语音模式的自然对话。该过程包括来自人类的反馈,他们提供了好的和坏的反应的例子。据路透社报道,OpenAI 预计明年收入将增至 116 亿美元,高于 2024 年估计的 37 亿美元。杂志:人工智能可能已经比比特币使用更多的电力,并威胁到比特币挖矿