[ PROMPT_NODE_26558 ]
exploratory-data-analysis
[ SKILL_DOCUMENTATION ]
# 探索性数据分析 (EDA)
## 概述
对跨多个领域的科学数据文件执行全面的探索性数据分析 (EDA)。此技能提供自动文件类型检测、格式特定分析、数据质量评估,并生成适合文档记录和后续分析规划的详细 Markdown 报告。
**核心能力:**
- 自动检测和分析 200 多种科学文件格式
- 全面的格式特定元数据提取
- 数据质量和完整性评估
- 统计摘要和分布分析
- 可视化建议
- 后续分析建议
- Markdown 报告生成
## 何时使用此技能
在以下情况使用此技能:
- 用户提供科学数据文件路径以进行分析
- 用户要求“探索”、“分析”或“总结”数据文件
- 用户想要了解科学数据的结构和内容
- 用户在分析前需要数据集的综合报告
- 用户想要评估数据质量或完整性
- 用户询问文件适合哪种分析方法
## 支持的文件类别
该技能涵盖了六大类科学文件格式:
### 1. 化学与分子格式 (60+ 扩展名)
结构文件、计算化学输出、分子动力学轨迹和化学数据库。
**文件类型包括:** `.pdb`, `.cif`, `.mol`, `.mol2`, `.sdf`, `.xyz`, `.smi`, `.gro`, `.log`, `.fchk`, `.cube`, `.dcd`, `.xtc`, `.trr`, `.prmtop`, `.psf` 等。
**参考文件:** `references/chemistry_molecular_formats.md`
### 2. 生物信息学与基因组学格式 (50+ 扩展名)
序列数据、比对、注释、变异和表达数据。
**文件类型包括:** `.fasta`, `.fastq`, `.sam`, `.bam`, `.vcf`, `.bed`, `.gff`, `.gtf`, `.bigwig`, `.h5ad`, `.loom`, `.counts`, `.mtx` 等。
**参考文件:** `references/bioinformatics_genomics_formats.md`
### 3. 显微镜与成像格式 (45+ 扩展名)
显微镜图像、医学成像、全切片成像和电子显微镜。
**文件类型包括:** `.tif`, `.nd2`, `.lif`, `.czi`, `.ims`, `.dcm`, `.nii`, `.mrc`, `.dm3`, `.vsi`, `.svs`, `.ome.tiff` 等。
**参考文件:** `references/microscopy_imaging_formats.md`
### 4. 光谱学与分析化学格式 (35+ 扩展名)
NMR、质谱、IR/Raman、UV-Vis、X 射线、色谱及其他分析技术。
**文件类型包括: