[ PROMPT_NODE_27392 ]
theoretical-foundations
[ SKILL_DOCUMENTATION ]
# scvi-tools 的理论基础
本文档解释了 scvi-tools 底层的数学和统计学原理。
## 核心概念
### 变分推理 (Variational Inference)
**它是什么?**
变分推理是一种用于近似复杂概率分布的技术。在单细胞分析中,我们希望理解后验分布 p(z|x) —— 即给定观测数据 x 时潜在变量 z 的概率。
**为什么要使用它?**
- 对于复杂模型,精确推理在计算上是不可行的
- 可扩展到大型数据集(数百万个细胞)
- 提供不确定性量化
- 支持关于细胞状态的贝叶斯推理
**它是如何工作的?**
1. 定义一个具有可学习参数的简单近似分布 q(z|x)
2. 最小化 q(z|x) 与真实后验分布 p(z|x) 之间的 KL 散度
3. 等同于最大化证据下界 (ELBO)
**ELBO 目标函数**:
ELBO = E_q[log p(x|z)] - KL(q(z|x) || p(z))
↑ ↑
重构项 正则化项
- **重构项**: 模型应生成与观测数据相似的数据
- **正则化项**: 潜在表示应匹配先验分布
### 变分自编码器 (VAEs)
**架构**:
x (观测数据)
↓
[编码器神经网络]
↓
z (潜在表示)
↓
[解码器神经网络]
↓
x̂ (重构数据)
**编码器**: 将细胞 (x) 映射到潜在空间 (z)
- 学习近似后验分布 q(z|x)
- 由具有可学习权重的神经网络参数化
- 输出潜在分布的均值和方差
**解码器**: 将潜在空间 (z) 映射回基因空间
- 学习似然函数 p(x|z)
- 从潜在表示生成基因表达
- 对计数分布进行建模(负二项分布、零膨胀负二项分布)
**重参数化技巧 (Reparameterization Trick)**:
- 允许通过随机采样进行反向传播
- 采样 z = μ + σ ⊙ ε,其中 ε ~ N(0,1)
- 支持使用梯度下降进行端到端训练
### 摊销推理 (Amortized Inference)
**概念**: 在所有细胞间共享编码器参数。
**传统推理**: 为每个细胞学习单独的潜在变量
- n_cells × n_latent 参数
- 无法扩展到大型数据集
**摊销推理**: 为所有细胞学习单个编码器
- 无论细胞数量多少,参数数量固定
- 支持对新细胞进行快速推理
- 在整个数据集间迁移学习到的模式
**优势**:
- 可扩展至数百万个细胞
- 对查询数据进行快速推理
- 利用细胞间的共享结构
- 启用