[ PROMPT_NODE_26712 ]

lamindb

[ SKILL_DOCUMENTATION ]

# LaminDB ## 概述 LaminDB 是一个专为生物学设计的开源数据框架，旨在使数据具备可查询、可追溯、可重复和 FAIR（可发现、可访问、可互操作、可重用）特性。它提供了一个统一的平台，通过单一的 Python API 结合了湖仓架构、谱系追踪、特征存储、生物本体、LIMS（实验室信息管理系统）和 ELN（电子实验记录本）功能。 **核心价值主张：** - **可查询性**：按元数据、特征和本体术语搜索和过滤数据集 - **可追溯性**：从原始数据到分析结果的自动谱系追踪 - **可重复性**：数据、代码和环境的版本控制 - **FAIR 合规性**：使用生物本体进行标准化标注 ## 何时使用此技能当需要执行以下操作时，应使用此技能： - **管理生物数据集**：scRNA-seq、bulk RNA-seq、空间转录组学、流式细胞术、多模态数据、EHR 数据 - **追踪计算工作流**：笔记本、脚本、流水线执行（Nextflow, Snakemake, Redun） - **策划和验证数据**：模式验证、标准化、基于本体的标注 - **使用生物本体**：基因、蛋白质、细胞类型、组织、疾病、通路（通过 Bionty） - **构建数据湖仓**：跨多个数据集的统一查询接口 - **确保可重复性**：自动版本控制、谱系追踪、环境捕获 - **集成机器学习流水线**：连接 Weights & Biases, MLflow, HuggingFace, scVI-tools - **部署数据基础设施**：设置本地或云端数据管理系统 - **协作处理数据集**：共享带有标准化元数据的已策划、已标注数据 ## 核心能力 LaminDB 提供六个相互关联的能力领域，每个领域在参考文件夹中都有详细记录。 ### 1. 核心概念与数据谱系 **核心实体：** - **Artifacts (制品)**：版本化的数据集（DataFrame, AnnData, Parquet, Zarr 等） - **Records (记录)**：实验实体（样本、扰动、仪器） - **Runs & Transforms (运行与转换)**：计算谱系追踪（什么代码产生了什么数据） - **Features (特征)**：用于标注和查询的类型化元数据字段 **关键工作流：** - 从文件或 Python 对象创建并版本化制品 - 使用 `ln.track()` 和 `ln.finish()` 追踪笔记本/脚本执行 - 使用类型化特征标注制品 - 使用 `artifact.view_lineage()` 可视化数据谱系图 -

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI