智能体应用让大语言模型(LLM)自行决定下一步操作来解决问题。这种灵活性很强大,但模型的黑箱特性使得很难预测对智能体某一部分的调整会如何影响整体。要构建生产级智能体,全面的测试至关重要。 以下是测试智能体的几种方法:Documentation Index
Fetch the complete documentation index at: https://nvd-54.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
- 单元测试使用内存中的模拟对象隔离地测试智能体中小的、确定性的部分,以便你能快速且确定地断言确切行为。
- 集成测试使用真实的网络调用测试智能体,以确认各组件协同工作、凭证和模式匹配、以及延迟可接受。
- **评估(Evals)**使用评估器来评估智能体的执行轨迹,方式包括确定性匹配或 LLM 评委。
单元测试
使用模拟聊天模型和内存持久化来测试智能体逻辑,无需 API 调用。
集成测试
使用真实的 LLM API 测试你的智能体。组织测试、管理密钥、处理不稳定性和控制成本。
评估
使用确定性匹配或 LLM 评委评估器来评估智能体轨迹。
连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。

