[ PROMPT_NODE_26712 ]
lamindb
[ SKILL_DOCUMENTATION ]
# LaminDB
## 概述
LaminDB 是一个专为生物学设计的开源数据框架,旨在使数据具备可查询、可追溯、可重复和 FAIR(可发现、可访问、可互操作、可重用)特性。它提供了一个统一的平台,通过单一的 Python API 结合了湖仓架构、谱系追踪、特征存储、生物本体、LIMS(实验室信息管理系统)和 ELN(电子实验记录本)功能。
**核心价值主张:**
- **可查询性**:按元数据、特征和本体术语搜索和过滤数据集
- **可追溯性**:从原始数据到分析结果的自动谱系追踪
- **可重复性**:数据、代码和环境的版本控制
- **FAIR 合规性**:使用生物本体进行标准化标注
## 何时使用此技能
当需要执行以下操作时,应使用此技能:
- **管理生物数据集**:scRNA-seq、bulk RNA-seq、空间转录组学、流式细胞术、多模态数据、EHR 数据
- **追踪计算工作流**:笔记本、脚本、流水线执行(Nextflow, Snakemake, Redun)
- **策划和验证数据**:模式验证、标准化、基于本体的标注
- **使用生物本体**:基因、蛋白质、细胞类型、组织、疾病、通路(通过 Bionty)
- **构建数据湖仓**:跨多个数据集的统一查询接口
- **确保可重复性**:自动版本控制、谱系追踪、环境捕获
- **集成机器学习流水线**:连接 Weights & Biases, MLflow, HuggingFace, scVI-tools
- **部署数据基础设施**:设置本地或云端数据管理系统
- **协作处理数据集**:共享带有标准化元数据的已策划、已标注数据
## 核心能力
LaminDB 提供六个相互关联的能力领域,每个领域在参考文件夹中都有详细记录。
### 1. 核心概念与数据谱系
**核心实体:**
- **Artifacts (制品)**:版本化的数据集(DataFrame, AnnData, Parquet, Zarr 等)
- **Records (记录)**:实验实体(样本、扰动、仪器)
- **Runs & Transforms (运行与转换)**:计算谱系追踪(什么代码产生了什么数据)
- **Features (特征)**:用于标注和查询的类型化元数据字段
**关键工作流:**
- 从文件或 Python 对象创建并版本化制品
- 使用 `ln.track()` 和 `ln.finish()` 追踪笔记本/脚本执行
- 使用类型化特征标注制品
- 使用 `artifact.view_lineage()` 可视化数据谱系图
-