[ PROMPT_NODE_26774 ]
Markitdown 说明文档
[ SKILL_DOCUMENTATION ]
# MarkItDown 技能
此技能提供使用微软 MarkItDown 工具将各种文件格式转换为 Markdown 的全面支持。
## 概述
MarkItDown 是一个 Python 工具,可将文件和办公文档转换为 Markdown 格式。此技能包括:
- 完整的 API 文档
- 特定格式的转换指南
- 用于批量处理的实用脚本
- AI 增强的转换示例
- 与科学工作流的集成
## 内容
### 主要技能文件
- **SKILL.md** - 使用 MarkItDown 的完整指南,包含快速入门、示例和最佳实践
### 参考资料
- **api_reference.md** - 详细的 API 文档、类参考和方法签名
- **file_formats.md** - 所有支持文件格式的特定详细信息
### 脚本
- **batch_convert.py** - 使用并行处理批量转换多个文件
- **convert_with_ai.py** - 使用自定义提示词的 AI 增强转换
- **convert_literature.py** - 带有元数据提取的科学文献转换
### 资源
- **example_usage.md** - 常见用例的实际示例
## 安装
bash
# 安装所有功能
pip install 'markitdown[all]'
# 或安装特定功能
pip install 'markitdown[pdf,docx,pptx,xlsx]'
## 快速入门
python
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("document.pdf")
print(result.text_content)
## 支持的格式
- **文档**: PDF, DOCX, PPTX, XLSX, EPUB
- **图像**: JPEG, PNG, GIF, WebP (支持 OCR)
- **音频**: WAV, MP3 (支持转录)
- **网页**: HTML, YouTube 链接
- **数据**: CSV, JSON, XML
- **归档**: ZIP 文件
## 核心功能
### 1. AI 增强转换
通过 OpenRouter 使用 AI 模型生成详细的图像描述:
python
from openai import OpenAI
# OpenRouter 提供对 100 多种 AI 模型的访问
client = OpenAI(
api_key="your-openrouter-api-key",
base_url="https://openrouter.ai/api/v1"
)
md = MarkItDown(
llm_client=client,
llm_model="anthropic/claude-sonnet-4.5" # 推荐用于视觉任务
)
result = md.convert("presentation.pptx")
### 2. 批量处理
高效转换多个文件:
bash
python scripts/batch_convert.py papers/ output/ --extensions .pdf .docx
### 3. 科学文献
转换并整理研究论文:
bash
python scripts/convert_literature.py papers/ output/ --organize-by-year --create-index
### 4. Azure 文档智能
使用 Microsoft D 进行增强的 PDF 转换