[ PROMPT_NODE_27392 ]

theoretical-foundations

[ SKILL_DOCUMENTATION ]

# scvi-tools 的理论基础本文档解释了 scvi-tools 底层的数学和统计学原理。 ## 核心概念 ### 变分推理 (Variational Inference) **它是什么？** 变分推理是一种用于近似复杂概率分布的技术。在单细胞分析中，我们希望理解后验分布 p(z|x) —— 即给定观测数据 x 时潜在变量 z 的概率。 **为什么要使用它？** - 对于复杂模型，精确推理在计算上是不可行的 - 可扩展到大型数据集（数百万个细胞） - 提供不确定性量化 - 支持关于细胞状态的贝叶斯推理 **它是如何工作的？** 1. 定义一个具有可学习参数的简单近似分布 q(z|x) 2. 最小化 q(z|x) 与真实后验分布 p(z|x) 之间的 KL 散度 3. 等同于最大化证据下界 (ELBO) **ELBO 目标函数**: ELBO = E_q[log p(x|z)] - KL(q(z|x) || p(z)) ↑ ↑ 重构项正则化项 - **重构项**: 模型应生成与观测数据相似的数据 - **正则化项**: 潜在表示应匹配先验分布 ### 变分自编码器 (VAEs) **架构**: x (观测数据) ↓ [编码器神经网络] ↓ z (潜在表示) ↓ [解码器神经网络] ↓ x̂ (重构数据) **编码器**: 将细胞 (x) 映射到潜在空间 (z) - 学习近似后验分布 q(z|x) - 由具有可学习权重的神经网络参数化 - 输出潜在分布的均值和方差 **解码器**: 将潜在空间 (z) 映射回基因空间 - 学习似然函数 p(x|z) - 从潜在表示生成基因表达 - 对计数分布进行建模（负二项分布、零膨胀负二项分布） **重参数化技巧 (Reparameterization Trick)**: - 允许通过随机采样进行反向传播 - 采样 z = μ + σ ⊙ ε，其中 ε ~ N(0,1) - 支持使用梯度下降进行端到端训练 ### 摊销推理 (Amortized Inference) **概念**: 在所有细胞间共享编码器参数。 **传统推理**: 为每个细胞学习单独的潜在变量 - n_cells × n_latent 参数 - 无法扩展到大型数据集 **摊销推理**: 为所有细胞学习单个编码器 - 无论细胞数量多少，参数数量固定 - 支持对新细胞进行快速推理 - 在整个数据集间迁移学习到的模式 **优势**: - 可扩展至数百万个细胞 - 对查询数据进行快速推理 - 利用细胞间的共享结构 - 启用

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI