[ PROMPT_NODE_24950 ]
evaluation
[ SKILL_DOCUMENTATION ]
# MCP 服务器评估指南
## 概述
本文档提供了关于为 MCP 服务器创建全面评估的指南。评估旨在测试 LLM 是否能仅使用提供的工具,有效地利用您的 MCP 服务器来回答现实且复杂的问题。
---
## 快速参考
### 评估要求
- 创建 10 个易于阅读的问题
- 问题必须是只读的、独立的、非破坏性的
- 每个问题需要多次工具调用(可能多达数十次)
- 答案必须是单一的、可验证的值
- 答案必须是稳定的(不会随时间改变)
### 输出格式
xml
Your question here
Single verifiable answer
---
## 评估目的
MCP 服务器的质量衡量标准不是服务器实现工具的程度或全面性,而是这些实现(输入/输出模式、文档字符串/描述、功能)在没有其他上下文且仅能访问 MCP 服务器的情况下,使 LLM 回答现实且困难问题的能力。
## 评估概述
创建 10 个易于阅读的问题,仅需要只读、独立、非破坏性和幂等的操作即可回答。每个问题都应该是:
- 现实的
- 清晰简洁的
- 无歧义的
- 复杂的,可能需要数十次工具调用或步骤
- 可以用您预先确定的单一、可验证的值来回答
## 问题指南
### 核心要求
1. **问题必须是独立的**
- 每个问题不应依赖于任何其他问题的答案
- 不应假设处理另一个问题时存在先前的写入操作
2. **问题必须仅需要非破坏性和幂等的工具使用**
- 不应指示或要求修改状态以得出正确答案
3. **问题必须是现实的、清晰的、简洁的和复杂的**
- 必须要求另一个 LLM 使用多个(可能数十个)工具或步骤来回答
### 复杂度与深度
4. **问题必须需要深度探索**
- 考虑需要多个子问题和顺序工具调用的多跳问题
- 每个步骤都应受益于在先前问题中发现的信息
5. **问题可能需要广泛的分页**
- 可能需要翻阅多页结果
- 可能需要查询旧数据(1-2 年前)以查找利基信息
- 问题必须是困难的
6. **问题