[ PROMPT_NODE_26784 ]
file_formats
[ SKILL_DOCUMENTATION ]
# 文件格式支持
本文档提供了 MarkItDown 支持的每种文件格式的详细信息。
## 文档格式
### PDF (.pdf)
**功能**:
- 文本提取
- 表格检测
- 元数据提取
- 扫描文档的 OCR(需依赖项)
**依赖项**:
bash
pip install 'markitdown[pdf]'
**适用场景**:
- 科学论文
- 报告
- 书籍
- 表单
**局限性**:
- 复杂的布局可能无法完美保留格式
- 扫描版 PDF 需要配置 OCR
- 某些 PDF 特性(注释、表单)可能无法转换
**示例**:
python
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("research_paper.pdf")
print(result.text_content)
**使用 Azure Document Intelligence 增强**:
python
md = MarkItDown(docintel_endpoint="https://YOUR-ENDPOINT.cognitiveservices.azure.com/")
result = md.convert("complex_layout.pdf")
---
### Microsoft Word (.docx)
**功能**:
- 文本提取
- 表格转换
- 标题层级
- 列表格式
- 基础文本格式(加粗、斜体)
**依赖项**:
bash
pip install 'markitdown[docx]'
**适用场景**:
- 研究论文
- 报告
- 文档
- 手稿
**保留元素**:
- 标题(转换为 Markdown 标题)
- 表格(转换为 Markdown 表格)
- 列表(无序和有序列表)
- 基础格式(加粗、斜体)
- 段落
**示例**:
python
result = md.convert("manuscript.docx")
---
### PowerPoint (.pptx)
**功能**:
- 幻灯片内容提取
- 演讲者备注
- 表格提取
- 图像描述(配合 AI)
**依赖项**:
bash
pip install 'markitdown[pptx]'
**适用场景**:
- 演示文稿
- 讲座幻灯片
- 会议演讲
**输出格式**:
markdown
# Slide 1: Title
Content from slide 1...
**Notes**: Speaker notes appear here
---
# Slide 2: Next Topic
...
**使用 AI 图像描述**:
python
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("presentation.pptx")
---
### Excel (.xlsx, .xls)
**功能**:
- 工作表提取
- 表格格式化
- 数据保留
- 公式值(已计算)
**依赖项**:
bash
pip install 'markitdown[xlsx]' # 现代 Excel
pip install 'markitdown[xls]' # 旧版 Excel
**适用场景**:
- 数据表
- 研究数据
- 统计结果
- 实验数据
**输出格式**:
markdown
# Sheet: Results
| Sample | Control | Treatment | P-v