
今天,我们发布了第一套构建模块,它们将帮助开发人员和企业构建实用可靠的代理。我们将代理视为代表用户独立完成任务的系统。在过去的一年里,我们引入了新的模型功能(例如高级推理、多模式交互和新的安全技术),为我们的模型处理构建代理所需的复杂、多步骤任务奠定了基础。然而,客户表示,将这些功能转化为可用于生产的代理可能具有挑战性,通常需要大量的快速迭代和自定义编排逻辑,而没有足够的可见性或内置支持。
为了应对这些挑战,我们推出了一套新的 API 和工具,专门用于简化代理应用程序的开发:
- 新的响应API(在新窗口中打开),将 Chat Completions API 的简单性与 Assistants API 的工具使用功能相结合,用于构建代理
- 内置工具,包括网页搜索(在新窗口中打开)、文件搜索(在新窗口中打开)以及电脑的使用(在新窗口中打开)
- 新的Agents SDK(在新窗口中打开)协调单代理和多代理工作流程
- 集成可观察性工具(在新窗口中打开)跟踪和检查代理工作流程的执行情况
这些新工具简化了核心代理逻辑、编排和交互,使开发人员能够更轻松地开始构建代理。在接下来的几周和几个月内,我们计划发布更多工具和功能,以进一步简化和加速在我们的平台上构建代理应用程序。
Responses API 介绍
Responses API 是我们利用 OpenAI 内置工具构建代理的新 API 原语。它将 Chat Completions 的简单性与 Assistants API 的工具使用功能相结合。随着模型功能的不断发展,我们相信 Responses API 将为构建代理应用程序的开发人员提供更灵活的基础。只需一次 Responses API 调用,开发人员就能使用多种工具和模型转换来解决日益复杂的任务。
首先,Responses API 将支持新的内置工具,例如网页搜索、文件搜索和计算机使用。这些工具旨在协同工作,将模型与现实世界联系起来,使它们在完成任务时更有用。它还带来了一些可用性改进,包括统一的基于项目的设计、更简单的多态性、直观的流式事件和 SDK 助手,例如response.output_text
轻松访问模型的文本输出。
Responses API 专为希望轻松将 OpenAI 模型和内置工具结合到其应用程序中的开发人员而设计,而无需集成多个 API 或外部供应商。该 API 还使在 OpenAI 上存储数据变得更加容易,因此开发人员可以使用跟踪和评估等功能来评估代理性能。提醒一下,即使数据存储在 OpenAI 上,我们也不会默认使用业务数据训练模型。从今天开始,所有开发人员都可以使用该 API,并且不单独收费——令牌和工具按我们定价页面上指定的标准费率计费(在新窗口中打开). 查看 Responses API快速入门指南(在新窗口中打开)了解更多信息。
这对现有 API 意味着什么
- 聊天完成API(在新窗口中打开):聊天完成仍然是我们最广泛采用的 API,我们完全致力于通过新模型和功能支持它。不需要内置工具的开发人员可以放心地继续使用聊天完成。只要聊天完成的功能不依赖于内置工具或多个模型调用,我们就会继续向聊天完成发布新模型。但是,响应 API 是一个超集(在新窗口中打开)聊天完成具有同样出色的性能,因此对于新的集成,我们建议从响应 API 开始。
- 助手API(在新窗口中打开):根据开发者对 Assistants API 测试版的反馈,我们在 Responses API 中加入了关键改进,使其更加灵活、快速且易于使用。我们正在努力实现 Assistants 和 Responses API 之间的全部功能对等,包括对类似 Assistant 和类似 Thread 的对象以及代码解释器工具的支持。完成后,我们计划正式宣布弃用 Assistants API,目标弃用日期为 2026 年中期。弃用后,我们将提供从 Assistants API 到 Responses API 的明确迁移指南,使开发者能够保留所有数据并迁移其应用程序。在我们正式宣布弃用之前,我们将继续向 Assistants API 提供新模型。Responses API 代表了在 OpenAI 上构建代理的未来方向。
Responses API 中引入内置工具
网络搜索
开发人员现在可以从网络上快速获得最新答案,并获取清晰且相关的引文。在 Responses API 中,使用 gpt-4o 和 gpt-4o-mini 时,网络搜索可用作工具,并可与其他工具或函数调用配对使用。
JavaScript
const response = await openai.responses.create(
{
model: "gpt-4o",
tools: [
{
type: "web_search_preview"
} ],
input: "What was a positive news story that happened today?",5
});67console.log(response.output_text);
在早期测试期间,我们看到开发人员使用网络搜索构建了各种用例,包括购物助理、研究代理和旅行预订代理——任何需要从网络获取及时信息的应用程序。
例如,Hebbia(在新窗口中打开)利用网络搜索工具帮助资产管理公司、私募股权和信贷公司以及律师事务所从大量公共和私人数据集中快速提取可操作的见解。通过将实时搜索功能集成到其研究工作流程中,Hebbia 提供了更丰富、针对具体情况的市场情报,并不断提高其分析的准确性和相关性,超越了当前的基准。
API 中的网页搜索由与 ChatGPT 搜索相同的模型提供支持。在 SimpleQA(评估 LLM 回答简短事实问题的准确性的基准)上,GPT-4o 搜索预览和 GPT-4o 迷你搜索预览的得分分别为 90% 和 88%。
API 中的网页搜索生成的响应包括新闻文章和博客文章等来源的链接,为用户提供了了解更多信息的途径。借助这些清晰的内联引文,用户可以以新的方式获取信息,而内容所有者则获得了接触更广泛受众的新机会。
任何网站或出版商都可以选择出现(在新窗口中打开)在 API 中的网络搜索中。
所有开发人员均可在 Responses API 中预览该网络搜索工具。我们还让开发人员通过gpt-4o-search-preview
和直接访问 Chat Completions API 中经过微调的搜索模型gpt-4o-mini-search-preview
。定价(在新窗口中打开)GPT-4o 搜索和 4o-mini 搜索的起价分别为每千次查询 30 美元和 25 美元。在 Playground 中查看网页搜索(在新窗口中打开)并在我们的文档中了解更多信息(在新窗口中打开)。
文件搜索
开发人员现在可以使用改进的文件搜索工具轻松地从大量文档中检索相关信息。通过支持多种文件类型、查询优化、元数据过滤和自定义重新排序,它可以提供快速、准确的搜索结果。同样,使用 Responses API,只需几行代码即可集成。