🔬 前 言 🔬
统计不是论文的装饰品,而是贯穿研究全过程的基础骨架。
这份基于 Panos & Boeckler (2023) 发表于《Drug Design,
Development and Therapy》指南的深度解读,将带你从“知道规则”
进阶到“懂得操作”。
许多稿件被拒或结论不可靠,根源不在于“P值不显著”,而在于从根上
就违反了基本的统计原则。本文把指南的八点要求拆解并融入
设计、分析、报告三阶段,提供可直接对照执行的清单。
─────────────────────────────────────────────
█ 第一部分:实验设计阶段 —— 避免“先天不足” █
⚠️ 核心警示:研究的成败在收集第一个数据点之前就已决定。
设计阶段的统计错误是致命的,后期无法补救。
─────────────────────────────────────────────
◆◆◆ 模块一:样本量确定 —— 到底需要多少样本? ◆◆◆
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
❶ 临床研究:效能分析 —— 精确计算
📌 应用场景:随机对照试验、前瞻性队列研究、有明确主要结局指标
的临床研究。
📌 实操步骤:
1️⃣ 明确主要结局指标(例如降压药的疗效指标:收缩压变化值)
2️⃣ 设定三个关键参数:
• α (显著性水平,通常为0.05):犯I类错误(假阳性)的概率。
• 1-β (把握度/效能,必须 ≥ 80%):如果真实差异存在,
你能发现它的概率。低于80%则可信度大打折扣。
• 效应量:预期发现的差异大小,基于预实验、文献或
临床最小有意义差值。
📝 论文写作模板:
“样本量基于主要结局指标【XX】进行计算。假设【对照组均值/比例】
为【A】,预期【干预组】能将之改变为【B】,设双侧α=0.05,
把握度(1-β)=90%,估算每组需要【N】例。考虑20%的失访率,
最终拟纳入每组【N×1.2】例。计算使用软件【PASS / G*Power / Stata等】。”
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
❷ 实验/动物研究:资源方程法 —— 简约实用
📌 应用场景:多组比较的生物学/动物实验,效应量难预估,
且样本量受伦理和资源限制。
📌 实操步骤:
1️⃣ 确定实验设计(如3个剂量组+1个对照组,共4组 T=4)
2️⃣ 计算公式:
误差自由度 (E) = 总动物数 (N) - 处理组数 (T) - 区组数 (B) + 1
3️⃣ 核心目标:让 E 落在 10 到 20 之间!
E<10 效能不足,E>20 可能浪费资源。
4️⃣ 反推样本量:N = E + T(当无区组时)
💡 举例:4组(T=4),希望 E=15,则 N = 15+4 = 19 只动物,
每组约5只(注意平衡各组样本量)。
📝 论文写作模板:
“样本量采用资源方程法确定。本研究共设【4】个实验组(T),
为使方差分析中误差自由度达到【15】(介于10-20之间),
共需使用约【19】只动物,每组样本量约为5只。这一方法平衡了
统计效能与动物伦理的3R原则。”
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
❸ 极端小样本 (n < 5):最后的无奈之选
⚠️ 核心原则:如果每组样本量小于5且无法增加,
请不要做任何传统的推断统计(如t检验、ANOVA)!
✅ 正确做法:
• 数据仅作为描述性结果呈现(展示个体值和均值)。
• 在摘要和讨论中明确标注为“初步探索性结果”。
• 在讨论部分作为一个局限性坦诚讨论。
• 替代方案:使用 Bootstrap 或 置换检验。这些方法不依赖分布和
样本量,通过计算机重采样模拟抽样分布来计算P值。
但即便使用,仍需谨慎解释。
─────────────────────────────────────────────
◆◆◆ 模块二:组间均衡与独立性 —— 避免“带毒”的数据 ◆◆◆
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
❶ 小样本下的均衡设计 (n < 20)
实操指导:如果每组样本量少于20,尽量让各组样本量相等。
例如,一组6只、一组8只没问题;但一组5只、一组15只,
会极大降低统计效能,且对方差齐性检验造成困扰。
设计时,就应为所有组分配相同的样本量。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
❷ 独立性假设与“伪重复” —— 最隐蔽的错误
⚡ 案例1:临床研究的“双侧”陷阱
❌ 错误做法:研究眼药水对眼压的效果,收集30名患者,
用两只眼睛的数据当成 n=60 分析。
——两只眼睛来自同一个人,不独立!
✅ 正确做法 A(简单粗暴):随机选择每名患者的一只眼纳入分析。
✅ 正确做法 B(数据高效):使用混合效应模型。
将患者ID作为随机效应,考虑来自同一个人的
两只眼睛的相关性(SPSS、R均可实现)。
⚡ 案例2:基础实验的“三复孔”幻觉
❌ 错误做法:从一个细胞培养皿中提取蛋白,做三次Western Blot
上样(技术重复),报告 n=3。
✅ 正确做法:这仍然是 n=1!技术重复只能衡量测量误差,
不能代表生物学差异。要得到 n=3,必须重复
3次独立的生物学实验(不同日期、不同批次细胞)。
📋 检查清单:你的“n”是生物学重复吗?技术重复不能当生物学重复用!
─────────────────────────────────────────────
█ 第二部分:数据分析阶段 —— 选择正确的武器 █
拿到了数据,不能直接套用最熟悉的t检验或ANOVA,
必须先进行“敌情侦察”。
─────────────────────────────────────────────
◆◆◆ 模块三:数据探索 —— 侦察三部曲 ◆◆◆
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
① 第一步:正态性检验
• 首选检验:Shapiro-Wilk检验(Kolmogorov-Smirnov在小样本下
“视力”不好,容易漏掉偏离正态的分布)。
• 小样本 (n < 10):统计检验效能太低,此时必须看图!
查看直方图和 Q-Q图。在Q-Q图中,如果数据点
大致沿着45度线分布,可认为近似正态。
② 第二步:方差齐性检验
• 若数据正态,进行方差齐性检验。常用 Levene检验。
• 若Levene检验的P值 < 0.05,说明方差不齐。
③ 第三步:根据侦察结果选择武器
✅ 情况一:数据满足正态分布且方差齐
• 两组比较:使用独立样本t检验。
• 多组比较:使用单因素方差分析(ANOVA),
事后两两比较采用 Tukey HSD 检验。
⚠️ 情况二:数据满足正态分布但方差不齐
• 两组比较:使用 Welch's t检验(SPSS默认t检验即为Welch修正)。
• 多组比较:使用 Welch's ANOVA,
事后两两比较采用 Games-Howell 检验。
📦 情况三:数据不满足正态分布
• 两组比较:使用 Mann-Whitney U 检验。
• 多组比较:使用 Kruskal-Wallis 检验,
事后两两比较采用 Dunn 检验(需进行多重比较校正)。
─────────────────────────────────────────────
◆◆◆ 模块四:特殊情况处理 ◆◆◆
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
🔍 异常值处理指南
1️⃣ 识别:通过箱线图观察是否有超出1.5倍四分位距的点。
2️⃣ 溯源:是录入错误?仪器故障?还是真实的生物学极端值?
3️⃣ 决策:
• 录入错误 → 更正。
• 仪器故障/实验失败 → 剔除(需记录理由)。
• 真实极端值 → 原则上保留!可进行敏感性分析
(分别报告包含和不包含该异常值的结果),看结果是否稳健。
若结果因一个点而翻天覆地,说明结论不可靠。
⚠️ 武断剔除是学术不端的温床!
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
⚠️ 一个核心警告:数据转换
• 指南态度:强烈不推荐对数转换等数据转换。
• 原因:转换后,结论是关于“血糖的对数”是否有差异,
而不是“血糖”本身。这给读者理解带来极大困难。
除非是基因表达数据等有充分生物学理由(如log2FC)的领域,
否则尽量采用稳健的统计方法(如非参数检验)来应对非正态数据。
─────────────────────────────────────────────
█ 第三部分:结果报告阶段 —— 清晰、透明、可复现 █
─────────────────────────────────────────────
◆◆◆ 模块五:表格和文字中的统计呈现 ◆◆◆
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 1. 描述性统计的黄金法则
• 正态分布:用 均值 ± 标准差 (Mean ± SD)。
注意:不要用“均值 ± 标准误 (SEM)”来描述数据离散程度,
SEM是用于推断统计的,不能代表数据的变异度。
• 偏态分布:用 中位数 (四分位距) [Median (IQR)]。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📈 2. P值的精确报告
✅ 正确:(t = 2.34, df = 18, p = 0.031)
✅ 正确:(Mann-Whitney U = 45.5, p = 0.02)
❌ 错误:(p < 0.05) 或 (NS)。这丢失了大量信息。
特殊情况:极小的P值,如 p < 0.001 是允许的。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
✍️ 3. “方法”部分的统计段落(模板化写作)
你的论文方法部分应包含一个独立的“统计学分析”小节,内容如下:
“所有数据分析使用 [SPSS 27.0 / R 4.2.1 / GraphPad Prism 9.0] 完成。
首先,通过 Shapiro-Wilk 检验和 Q-Q 图评估数据的正态性。
对于符合正态分布且方差齐(Levene检验)的数据,两组间比较采用独立样本t检验,
多组间比较采用单因素方差分析,事后两两比较采用 Tukey HSD 检验。
对于方差不齐的正态数据,采用 Welch's ANOVA 和 Games-Howell 事后检验。
对于不符合正态分布的数据,两组间比较采用 Mann-Whitney U 检验,
多组间比较采用 Kruskal-Wallis 检验,事后比较采用 Dunn 检验。
对于重复测量数据(或包含双眼数据),采用线性混合效应模型进行分析,
以受试者ID作为随机截距。数据以均值±标准差或中位数(四分位距)表示。
双侧 P < 0.05 被认为具有统计学显著性。”
═════════════════════════════════════════════
🎯 结 语 🎯
统计是思考的工具,而非装饰
这份指南的价值在于,它将复杂的统计学还原为一系列清晰的科研准则。
对于研究人员而言,最好的实践是:
1️⃣ 设计前多想一步:不要等到数据出来了才找统计学家,
而是在设计实验方案时就咨询统计专家。
2️⃣ 分析时多问一句:我的数据满足这个方法的前提条件吗?
3️⃣ 报告时多写一点:提供足够的信息,让审稿人和读者能复现你的分析过程。
正如文章所言,统计不是“必要的恶”,而是我们探索科学真理过程中
必不可少的、最忠实的工具。
希望这份笔记能成为你科研工具箱中一件趁手的武器。
═════════════════════════════════════════════参考文献:
Panos GD, Boeckler FM. Statistical Analysis in Clinical and Experimental Medical Research: Simplified Guidance for Authors and Reviewers[J]. Drug Des Devel Ther, 2023, 17: 1959-1961.
═════════════════════════════════════════════