OpenAI 的新更新增强了人工智能的语音和视觉功能 - Cointelegraph

2024-10-02 11:18:00 英文原文

人工智能开发商 OpenAI 进入 10 月份，对其 AI 模型进行了多项更新，帮助他们更好地进行对话并提高图像识别能力。

10 月 1 日，OpenAI 发布了四项更新，引入了新工具，旨在让开发人员更轻松地在其模型上进行构建。

它会说话！

一项重大更新是 Realtime API，它允许开发人员使用单个提示创建 AI 生成的语音应用程序。

该工具可供测试，通过流式传输音频输入和输出来支持低延迟、多模式体验，从而实现类似于 ChatGPT 高级语音模式的自然对话。

以前，开发人员必须将多个模型拼接在一起才能创建这些体验。音频输入通常需要在接收响应之前完全上传和处理，这意味着语音到语音对话等实时应用程序的延迟较高。

相关：苹果、谷歌将利用人工智能维持主导地位 Cathie Woods ARK Invest

借助实时 API 流功能，开发人员现在可以实现即时、自然的交互，就像语音助手一样。该 API 运行在 2024 年 5 月发布的 GPT-4 上，可以实时跨音频、视觉和文本进行推理。

AI 现在可以看得很清楚了

另一项更新包括为开发人员提供的微调工具，使他们能够改进从图像和文本输入生成的 AI 响应。

开发人员表示，基于图像的微调器使人工智能能够更好地理解图像，从而增强视觉搜索和对象检测能力。该过程包括来自人类的反馈，他们提供了好的和坏的反应示例。

除了语音和视觉更新之外，OpenAI 还推出了模型蒸馏和提示缓存，允许较小的模型向较大的模型学习，并通过重用已处理的文本来减少开发成本和时间。

其模型的先进功能是一个关键卖点，因为 OpenAI 的大部分收入来自于企业在 OpenAI 技术之上构建自己的应用程序。

据路透社报道，OpenAI 预计明年收入将增至 116 亿美元，高于 2024 年估计的 37 亿美元。

杂志：人工智能可能已经比比特币使用更多的电力，并且威胁到比特币挖矿

关于《OpenAI 的新更新增强了人工智能的语音和视觉功能 - Cointelegraph》的评论

暂无评论

发表评论

摘要

人工智能开发商 OpenAI 进入 10 月份，对其 AI 模型进行了多项更新，帮助他们更好地进行对话并提高图像识别能力。该工具可供测试，通过流式传输音频输入和输出来支持低延迟、多模式体验，从而实现类似于 ChatGPT 高级语音模式的自然对话。该过程包括来自人类的反馈，他们提供了好的和坏的反应的例子。据路透社报道，OpenAI 预计明年收入将增至 116 亿美元，高于 2024 年估计的 37 亿美元。杂志：人工智能可能已经比比特币使用更多的电力，并威胁到比特币挖矿

OpenAI 的新更新增强了人工智能的语音和视觉功能 - Cointelegraph

它会说话！

AI 现在可以看得很清楚了

关于《OpenAI 的新更新增强了人工智能的语音和视觉功能 - Cointelegraph》的评论

发表评论

摘要

相关新闻

相关讨论