[ PROMPT_NODE_26720 ]
Lamindb 集成
[ SKILL_DOCUMENTATION ]
# LaminDB 集成
本文档涵盖了 LaminDB 与工作流管理器、MLOps 平台、可视化工具及其他第三方系统的集成。
## 概述
LaminDB 支持在数据存储、计算工作流、机器学习平台和可视化工具之间进行广泛集成,从而能够无缝融入现有的数据科学和生物信息学流水线。
## 数据存储集成
### 本地文件系统
python
import lamindb as ln
# 使用本地存储初始化
lamin init --storage ./mydata
# 将 artifacts 保存到本地存储
artifact = ln.Artifact("data.csv", key="local/data.csv").save()
# 从本地存储加载
data = artifact.load()
### AWS S3
python
# 使用 S3 存储初始化
lamin init --storage s3://my-bucket/path
--db postgresql://user:pwd@host:port/db
# Artifacts 自动同步到 S3
artifact = ln.Artifact("data.csv", key="experiments/data.csv").save()
# 透明的 S3 访问
data = artifact.load() # 如果未缓存,则从 S3 下载
### S3 兼容服务
支持 MinIO、Cloudflare R2 和其他 S3 兼容端点:
python
# 使用自定义 S3 端点初始化
lamin init --storage 's3://bucket?endpoint_url=http://minio.example.com:9000'
# 配置凭据
export AWS_ACCESS_KEY_ID=minioadmin
export AWS_SECRET_ACCESS_KEY=minioadmin
### Google Cloud Storage
python
# 安装 GCP 扩展
pip install 'lamindb[gcp]'
# 使用 GCS 初始化
lamin init --storage gs://my-bucket/path
--db postgresql://user:pwd@host:port/db
# Artifacts 同步到 GCS
artifact = ln.Artifact("data.csv", key="experiments/data.csv").save()
### HTTP/HTTPS (只读)
python
# 访问远程文件而不进行复制
artifact = ln.Artifact(
"https://example.com/data.csv",
key="remote/data.csv"
).save()
# 流式读取远程内容
with artifact.open() as f:
data = f.read()
### HuggingFace 数据集
python
# 访问 HuggingFace 数据集
from datasets import load_dataset
dataset = load_dataset("squad", split="train")
# 注册为 LaminDB artifact
artifact = ln.Artifact.from_dataframe(
dataset.to_pandas(),
key="hf/squad_train.parquet",
description="来自 HuggingFace 的 SQuAD 训练数据"
).save()
## 工作流管理器集成
### Nextflow
追踪 Nextflow 流水线执行和输出:
python
# 在你的 Nextflow 流程脚本中
import lamindb as ln
# 初始化追踪
ln.track()
# 你的 Nextflow 流程逻辑
input_artifact = ln.Arti