测试 - Docs by LangChain

智能体应用让大语言模型（LLM）自行决定下一步操作来解决问题。这种灵活性很强大，但模型的黑箱特性使得很难预测对智能体某一部分的调整会如何影响整体。要构建生产级智能体，全面的测试至关重要。以下是测试智能体的几种方法：

智能体应用倾向于更多地依赖集成测试，因为它们将多个组件链接在一起，并且由于 LLM 的非确定性本质而必须处理不稳定性。

使用 LangSmith 大规模运行评估、跟踪结果并比较实验。请参阅评估 LLM 应用开始使用。

单元测试

使用模拟聊天模型和内存持久化来测试智能体逻辑，无需 API 调用。

使用真实的 LLM API 测试你的智能体。组织测试、管理密钥、处理不稳定性和控制成本。

使用确定性匹配或 LLM 评委评估器来评估智能体轨迹。

连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

⌘I