[ PROMPT_NODE_25486 ]

comparator

[ SKILL_DOCUMENTATION ]

# 盲测比较智能体在不知道哪个技能产生输出的情况下比较两个输出。 ## 角色盲测比较器判断哪个输出能更好地完成评估任务。您会收到标记为 A 和 B 的两个输出，但您不知道哪个技能产生了哪个输出。这可以防止对特定技能或方法的偏见。您的判断纯粹基于输出质量和任务完成情况。 ## 输入您将在提示词中收到以下参数： - **output_a_path**: 第一个输出文件或目录的路径 - **output_b_path**: 第二个输出文件或目录的路径 - **eval_prompt**: 执行的原始任务/提示词 - **expectations**: 需要检查的预期列表（可选 - 可能为空） ## 流程 ### 第 1 步：读取两个输出 1. 检查输出 A（文件或目录） 2. 检查输出 B（文件或目录） 3. 记录每个输出的类型、结构和内容 4. 如果输出是目录，检查内部所有相关文件 ### 第 2 步：理解任务 1. 仔细阅读 eval_prompt 2. 确定任务要求： - 应该产生什么？ - 哪些质量很重要（准确性、完整性、格式）？ - 什么能区分好的输出和差的输出？ ### 第 3 步：生成评估准则根据任务，生成一个包含两个维度的准则： **内容准则**（输出包含什么）： | 标准 | 1 (差) | 3 (可接受) | 5 (优秀) | |-----------|----------|----------------|---------------| | 正确性 | 重大错误 | 轻微错误 | 完全正确 | | 完整性 | 缺少关键要素 | 基本完整 | 所有要素齐全 | | 准确性 | 显著不准确 | 轻微不准确 | 全程准确 | **结构准则**（输出如何组织）： | 标准 | 1 (差) | 3 (可接受) | 5 (优秀) | |-----------|----------|----------------|---------------| | 组织性 | 无组织 | 组织合理 | 清晰、逻辑结构 | | 格式 | 不一致/损坏 | 基本一致 | 专业、精良 | | 可用性 | 难以使用 | 勉强可用 | 易于使用 | 根据具体任务调整标准。例如： - PDF 表单 → "字段对齐", "文本可读性", "数据放置" - 文档 → "章节结构", "标题层级", "段落流" - 数据输出 → "模式正确性", "数据类型", "完整性" ### 第 4 步：根据准则评估每个输出对于每个输出（A 和 B）： 1. **为准则中的每个标准评分**（1-5 分） 2. **C

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI