[ PROMPT_NODE_24950 ]

evaluation

[ SKILL_DOCUMENTATION ]

# MCP 服务器评估指南 ## 概述本文档提供了关于为 MCP 服务器创建全面评估的指南。评估旨在测试 LLM 是否能仅使用提供的工具，有效地利用您的 MCP 服务器来回答现实且复杂的问题。 --- ## 快速参考 ### 评估要求 - 创建 10 个易于阅读的问题 - 问题必须是只读的、独立的、非破坏性的 - 每个问题需要多次工具调用（可能多达数十次） - 答案必须是单一的、可验证的值 - 答案必须是稳定的（不会随时间改变） ### 输出格式 xml Your question here Single verifiable answer --- ## 评估目的 MCP 服务器的质量衡量标准不是服务器实现工具的程度或全面性，而是这些实现（输入/输出模式、文档字符串/描述、功能）在没有其他上下文且仅能访问 MCP 服务器的情况下，使 LLM 回答现实且困难问题的能力。 ## 评估概述创建 10 个易于阅读的问题，仅需要只读、独立、非破坏性和幂等的操作即可回答。每个问题都应该是： - 现实的 - 清晰简洁的 - 无歧义的 - 复杂的，可能需要数十次工具调用或步骤 - 可以用您预先确定的单一、可验证的值来回答 ## 问题指南 ### 核心要求 1. **问题必须是独立的** - 每个问题不应依赖于任何其他问题的答案 - 不应假设处理另一个问题时存在先前的写入操作 2. **问题必须仅需要非破坏性和幂等的工具使用** - 不应指示或要求修改状态以得出正确答案 3. **问题必须是现实的、清晰的、简洁的和复杂的** - 必须要求另一个 LLM 使用多个（可能数十个）工具或步骤来回答 ### 复杂度与深度 4. **问题必须需要深度探索** - 考虑需要多个子问题和顺序工具调用的多跳问题 - 每个步骤都应受益于在先前问题中发现的信息 5. **问题可能需要广泛的分页** - 可能需要翻阅多页结果 - 可能需要查询旧数据（1-2 年前）以查找利基信息 - 问题必须是困难的 6. **问题

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI