[ PROMPT_NODE_26566 ]
general_scientific_formats
[ SKILL_DOCUMENTATION ]
# 通用科学数据格式参考
本参考指南涵盖了跨多个学科使用的通用科学数据格式。
## 数值与数组数据
### .npy - NumPy 数组
**描述:** 二进制 NumPy 数组格式
**典型数据:** 任意数据类型的 N 维数组
**应用场景:** 数值数据的快速 I/O,中间结果存储
**Python 库:**
- `numpy`: `np.load('file.npy')`, `np.save()`
- 内存映射访问: `np.load('file.npy', mmap_mode='r')`
**EDA 方法:**
- 数组形状和维度
- 数据类型和精度
- 统计摘要(均值、标准差、最小值、最大值、百分位数)
- 缺失值或无效值 (NaN, inf)
- 内存占用
- 数值分布和直方图
- 稀疏性分析
- 相关性结构(如果是 2D)
### .npz - 压缩 NumPy 归档
**描述:** 单个文件中包含多个 NumPy 数组
**典型数据:** 相关数组的集合
**应用场景:** 同时保存多个数组,压缩存储
**Python 库:**
- `numpy`: `np.load('file.npz')` 返回类似字典的对象
- `np.savez()` 或 `np.savez_compressed()`
**EDA 方法:**
- 包含的数组列表
- 单个数组分析
- 数组间的关系
- 总文件大小和压缩比
- 命名规范
- 数据一致性检查
### .csv - 逗号分隔值
**描述:** 纯文本表格数据
**典型数据:** 实验测量值、结果表
**应用场景:** 通用数据交换、电子表格导出
**Python 库:**
- `pandas`: `pd.read_csv('file.csv')`
- `csv`: 内置模块
- `polars`: 高性能 CSV 读取
- `numpy`: `np.loadtxt()` 或 `np.genfromtxt()`
**EDA 方法:**
- 行数和列数
- 数据类型推断
- 缺失值模式和频率
- 列统计(数值型:均值、标准差;类别型:频率)
- 异常值检测
- 相关系数矩阵
- 重复行检测
- 表头和索引验证
- 编码问题检测
### .tsv / .tab - 制表符分隔值
**描述:** 制表符分隔的表格数据
**典型数据:** 与 CSV 类似,但使用制表符分隔
**应用场景:** 生物信息学、文本处理输出
**Python 库:**
- `pandas`: `pd.read_csv('file.tsv', sep='t')`
**EDA 方法:**
- 同 CSV 格式
- 制表符与空格验证
- 引号处理
### .xlsx / .xls - Excel 电子表格
**描述:** Microsoft Excel 二进制/XML 格式
**典型数据:** 带有格式、公式的表格数据
**应用场景:** 实验记录本、数据录入、报告
**Python Librari