[ PROMPT_NODE_22646 ]
Mechanistic Interpretability Transformer Lens 说明文档
[ SKILL_DOCUMENTATION ]
# TransformerLens 参考文档
本目录包含 TransformerLens 的综合参考资料。
## 内容
- [api.md](api.md) - HookedTransformer、ActivationCache 和 HookPoints 的完整 API 参考
- [tutorials.md](tutorials.md) - 常见可解释性工作流的分步教程
- [papers.md](papers.md) - 关键研究论文和基础概念
## 快速链接
- **官方文档**: https://transformerlensorg.github.io/TransformerLens/
- **GitHub 仓库**: https://github.com/TransformerLensOrg/TransformerLens
- **模型属性表**: https://transformerlensorg.github.io/TransformerLens/generated/model_properties_table.html
## 安装
bash
pip install transformer-lens
## 基本用法
python
from transformer_lens import HookedTransformer
# 加载模型
model = HookedTransformer.from_pretrained("gpt2-small")
# 运行并缓存激活值
tokens = model.to_tokens("Hello world")
logits, cache = model.run_with_cache(tokens)
# 访问激活值
residual = cache["resid_post", 5] # 第 5 层残差流
attention = cache["pattern", 3] # 第 3 层注意力模式
## 核心概念
### HookPoints
Transformer 中的每个激活都有一个 HookPoint 包装器,支持:
- 通过 `run_with_cache()` 读取激活值
- 通过 `run_with_hooks()` 修改激活值
### 激活缓存 (Activation Cache)
`ActivationCache` 存储所有中间激活值,并提供辅助方法用于:
- 残差流分解
- Logit 归因
- 层级分析
### 支持的模型 (50+)
GPT-2, LLaMA, Mistral, Pythia, GPT-Neo, OPT, Gemma, Phi 等。