[ PROMPT_NODE_25602 ]
Web To Markdown 说明文档
[ SKILL_DOCUMENTATION ]
# web-to-markdown
使用本地浏览器自动化工具 Puppeteer 和 Readability 将网页转换为整洁的 Markdown。
## 目的
此技能使 Claude Code 能够通过 `web2md` CLI 工具将网页(包括 JavaScript 渲染的内容)转换为整洁、可读的 Markdown 格式。它特别适用于提取文章内容、文档,或任何需要以 Markdown 格式进行处理、归档或分析的网页内容。
## 使用场景
当你需要执行以下操作时使用此技能:
- 从新闻网站、博客或文档中提取文章内容
- 转换简单的 HTTP 获取无法处理的 JavaScript 重型页面
- 以可读、可移植的格式归档网页内容
- 处理用于分析或文档的网页内容
- 处理带有登录墙或人工验证的页面(使用交互模式)
- 批量将多个 URL 转换为 Markdown 文件
**重要:** 此技能必须由用户明确调用,例如:
- "use the skill web-to-markdown ..."
- "use a skill web-to-markdown ..."
这是一项硬性要求,旨在防止在简单工具即可满足需求时发生意外使用。
## 工作原理
该技能使用 `web2md` CLI 工具,其流程如下:
1. **启动真实浏览器** (Chrome/Chromium/Brave/Edge) 通过 Puppeteer
2. **渲染页面**,包括所有 JavaScript 和动态内容
3. **提取主要内容**,使用 Mozilla 的 Readability 库
4. **转换为 Markdown**,使用 Turndown 并清理链接
5. **输出**到 stdout 或保存到文件,并带有可选的 YAML frontmatter
这种方法可以处理简单的 HTTP 获取程序无法处理的现代单页应用和 JavaScript 渲染内容。
## 关键特性
- **JavaScript 支持**:通过 Puppeteer 渲染页面,捕获动态加载的内容
- **智能内容提取**:使用 Readability 识别并提取主要文章内容
- **灵活输出**:打印到 stdout,保存到特定文件,或在目录中自动命名文件
- **交互模式**:处理登录墙和人工验证挑战
- **批量处理**:在一次操作中转换多个 URL
- **等待策略**:多种选项以确保内容在提取前完全加载
- **浏览器配置文件**:支持持久化用户数据目录(会话、登录信息)
- **整洁的 Markdown**:生成可读、格式良好的 Markdown,并带有可选元数据
## 先决条件
必须安装 `web2md` CLI 工具。该技能将检查其是否存在,并提供安装说明。