OpenAI 泄露了有关其 AI 编码代理如何工作的技术细节
值得注意的是,两者开放人工智能和人择在 GitHub 上开源他们的编码 CLI 客户端,允许开发人员直接检查实现,但他们不会为 ChatGPT 或 Claude Web 界面做同样的事情。
官方查看循环内部
Bolin 的帖子重点关注他所说的“代理循环”,这是协调用户、人工智能模型以及模型调用以执行编码工作的软件工具之间交互的核心逻辑。
正如我们写道十二月,每个人工智能代理的核心都是一个重复循环。代理接受用户的输入并为模型准备文本提示。然后,模型生成一个响应,该响应要么为用户生成最终答案,要么请求工具调用(例如运行 shell 命令或读取文件)。如果模型请求工具调用,代理会执行它,将输出附加到原始提示,然后再次查询模型。重复此过程,直到模型停止请求工具并为用户生成辅助消息。
这个循环过程必须从某个地方开始,Bolin 的帖子揭示了 Codex 如何构建发送到 OpenAI Responses API 的初始提示,该 API 负责处理模型推理。该提示由多个组件构建,每个组件都分配有确定其优先级的角色:系统、开发人员、用户或助理。
指令字段来自用户指定的配置文件或与 CLI 捆绑的基本指令。工具字段定义模型可以调用哪些函数,包括 shell 命令、规划工具、Web 搜索功能以及通过模型上下文协议 (MCP) 服务器提供的任何自定义工具。输入字段包含一系列描述沙箱权限的项目、可选的开发人员说明、环境上下文(例如当前工作目录)以及最终用户的实际消息。
关于《OpenAI 泄露了有关其 AI 编码代理如何工作的技术细节》的评论
暂无评论
发表评论
摘要
OpenAI 和 Anthropic 都在 GitHub 上提供开源编码 CLI 客户端,供开发人员直接检查,但不提供对 ChatGPT 或 Claude Web 界面的相同访问权限。Bolin 的帖子讨论了“代理循环”,它是人工智能代理如何管理用户、人工智能模型和软件工具之间交互的核心。代理循环涉及一个循环,其中用户输入转换为模型的提示,响应要么提供最终答案,要么触发工具调用,然后由代理执行,直到得出结论。Bolin 揭示了 Codex 如何通过发送到 OpenAI 响应 API 的结构化提示来初始化此过程,该提示由系统指令、定义的工具和上下文输入组成。