[ PROMPT_NODE_27438 ]
assumptions_and_diagnostics
[ SKILL_DOCUMENTATION ]
# 统计假设与诊断程序
本文档提供了关于检查和验证各种分析统计假设的全面指导。
## 基本原则
1. **在解释测试结果之前始终检查假设**
2. **使用多种诊断方法**(可视化 + 正式检验)
3. **考虑稳健性**:某些测试在特定条件下对违规具有稳健性
4. **在分析报告中记录所有假设检查**
5. **报告违规情况及采取的补救措施**
## 各类测试的通用假设
### 1. 观测值的独立性
**含义**:每个观测值都是独立的;一个受试者的测量不会影响另一个受试者的测量。
**如何检查**:
- 审查研究设计和数据收集程序
- 对于时间序列:检查自相关(ACF/PACF 图,Durbin-Watson 检验)
- 对于聚类数据:考虑组内相关系数(ICC)
**违规时如何处理**:
- 对聚类/分层数据使用混合效应模型
- 对时间依赖数据使用时间序列方法
- 对相关数据使用广义估计方程(GEE)
**严重程度**:高 - 违规会严重夸大 I 类错误
---
### 2. 正态性
**含义**:数据或残差遵循正态(高斯)分布。
**何时需要**:
- t检验(针对小样本;n > 30/组时具有稳健性)
- ANOVA(针对小样本;n > 30/组时具有稳健性)
- 线性回归(针对残差)
- 某些相关性检验(Pearson)
**如何检查**:
**可视化方法**(主要):
- Q-Q(分位数-分位数)图:点应落在对角线上
- 带正态曲线覆盖的直方图
- 核密度图
**正式检验**(次要):
- Shapiro-Wilk 检验(推荐用于 n < 50)
- Kolmogorov-Smirnov 检验
- Anderson-Darling 检验
**Python 实现**:
python
from scipy import stats
import matplotlib.pyplot as plt
# Shapiro-Wilk 检验
statistic, p_value = stats.shapiro(data)
# Q-Q 图
stats.probplot(data, dist="norm", plot=plt)
**解释指南**:
- 对于 n < 30:可视化和正式检验都很重要
- 对于 30 ≤ n 30,可继续进行
- **中度违规**:使用非参数替代方案(Mann-Whitney, Kruskal-