[ PROMPT_NODE_27438 ]

assumptions_and_diagnostics

[ SKILL_DOCUMENTATION ]

# 统计假设与诊断程序本文档提供了关于检查和验证各种分析统计假设的全面指导。 ## 基本原则 1. **在解释测试结果之前始终检查假设** 2. **使用多种诊断方法**（可视化 + 正式检验） 3. **考虑稳健性**：某些测试在特定条件下对违规具有稳健性 4. **在分析报告中记录所有假设检查** 5. **报告违规情况及采取的补救措施** ## 各类测试的通用假设 ### 1. 观测值的独立性 **含义**：每个观测值都是独立的；一个受试者的测量不会影响另一个受试者的测量。 **如何检查**： - 审查研究设计和数据收集程序 - 对于时间序列：检查自相关（ACF/PACF 图，Durbin-Watson 检验） - 对于聚类数据：考虑组内相关系数（ICC） **违规时如何处理**： - 对聚类/分层数据使用混合效应模型 - 对时间依赖数据使用时间序列方法 - 对相关数据使用广义估计方程（GEE） **严重程度**：高 - 违规会严重夸大 I 类错误 --- ### 2. 正态性 **含义**：数据或残差遵循正态（高斯）分布。 **何时需要**： - t检验（针对小样本；n > 30/组时具有稳健性） - ANOVA（针对小样本；n > 30/组时具有稳健性） - 线性回归（针对残差） - 某些相关性检验（Pearson） **如何检查**： **可视化方法**（主要）： - Q-Q（分位数-分位数）图：点应落在对角线上 - 带正态曲线覆盖的直方图 - 核密度图 **正式检验**（次要）： - Shapiro-Wilk 检验（推荐用于 n < 50） - Kolmogorov-Smirnov 检验 - Anderson-Darling 检验 **Python 实现**： python from scipy import stats import matplotlib.pyplot as plt # Shapiro-Wilk 检验 statistic, p_value = stats.shapiro(data) # Q-Q 图 stats.probplot(data, dist="norm", plot=plt) **解释指南**： - 对于 n < 30：可视化和正式检验都很重要 - 对于 30 ≤ n 30，可继续进行 - **中度违规**：使用非参数替代方案（Mann-Whitney, Kruskal-

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI