cumulative effect 累积效应;蓄积作用 Knowledge is cumulative, easy to share and generates benefits that spill rapidly across borders. 知识是可积累的,便于分享,而且还可以带来效益、造福各界。 This paper is a large part of your cumulative grade. 这篇论文占你总成绩的比重很大。 It earned $32.0 million for a cumulative of $121 million since July 3. 该片上周收入为3200万美元,自7月3日上映以来累计票房已达1.21亿美元。 |
risk 指有可能发生的危险,尤指主动进行某种活动或去碰运气而冒的危险。 hazard 比risk正式,多指偶然发生的或无法控制的危险,常含较严重或有一定风险的意味。 |
关键内容摘要
队列研究 | |
固定队列fixed cohort | 同时或同时期进入队列,观察期限相同,直至观察期结束 |
动态队列dynamic cohort | 持续进入、退出、失访、终点事件、研究结束仍未出现终点事件 |
生存分析:将终点事件与出现终点事件所经历的时间结合起来
**疾病患者生存资料变量赋值表
生存资料的特点:①效应变量有2个,生存时间、生存结局;②存在截尾(或删失)数据;③生存时间通常不服从正态分布(多数情况下右偏态分布)
基本概念:
1.死亡事件/失效事件/终点事件:泛指标志着某种处理措施失败或失效的特征事件,常用符号t表示;
2.生存时间:从起点事件到观察对象发生终点事件所经历的时间,可以代表患者的真实存活时间,也可以代表某现象的持续时间
完全数据、删失数据/截尾数据
3.生存率/生存函数/累积生存概率:指患者经历tk个单位时间后仍存活的概率,通常用S(t)表示。描述生存时间分布的主要工具

其中,T为患者的存活时间。
如果存在删失数据,需对分母进行分时段校正。校正公式:

其中,P1 、P2 …… Pk表示各时点的生存概率。
4.1风险率hazard rate/风险函数/条件死亡率/瞬时死亡率:指已存活到时间点t的个体,接下来一段时间发生终点事件的概率。
常用H(t)表示。随时间推移可常数可递增。

4.2风险比hazard ratio,HR:同一时间点两个不同个体的风险率之比,与流行病学中的相对风险度relative risk概念相近。

每个时间点都有风险率,并由此计算风险比。
若风险比与时间无关,在各个时间点相同,称为等比例风险proportional hazard, PH;否则,为非比例风险/时间依赖的风险time-dependent。
![]() ![]() |
通过假设检验对不同处理/暴露组的生存率进行比较 | |
探索和了解影响生存时间长短的因素或者平衡某些混杂因素的影响后,评价某个或某些因素对于生存率的影响 | |
指对具有不同因素水平的个体的未来生存情况进行预测 |
Kaplan-Meier法的基本思想:
利用tk时刻之前各时间点上的条件生存率的连乘积来估计在时刻tk的生存率
基本概念:
以生存时间为横轴,以各个时间点的生存率为纵轴就可以绘制出一条阶梯状的曲线,即为生存曲线,简称K-M 曲线
注意:生存曲线上需要标注删失值
reverse Kaplan-Meier method

笔者按:K-M曲线是统计学对"死亡真相"的法庭推演
我读文献的时候,看K-M曲线,觉得这只是简单记录病人的死亡情况
【补充:即原始数据】,经过一段时间,有人死亡,曲线下降;后来看了书籍发现不是这样,K-M曲线的纵坐标是生存率,这个生存率是计算出来的,那横坐标的时间又该怎么理解?
在我的理解里,大家同时入组,接受药物或者安慰剂治疗,陆陆续续可能发生一些疾病进展,生存曲线像史官一样往下走一个台阶。但真实世界里,病人的招募大概也是需要时间的,在患有疾病的情况下,也不可能像通知大家考试一样,通知大家先不要治疗,等招满人再从哪天开始接受治疗。
K-M曲线中,每个患者都有自己的时间0点,横坐标中的时间是相对时间。
患者A:2020年1月1日手术 → 2022年1月1日死亡(生存2年) 患者B:2021年6月1日手术 → 2023年6月1日仍存活(生存2年,删失) 在K-M曲线上,两人都会在横坐标"2年"这个位置贡献数据 |

理解:每个患者有自己的时间0点 图源:Fundamentals of Clinical Trials
如果还不明白,可以参考画说统计 | 生存分析之Kaplan-Meier曲线都告诉我们什么,我个人宣布这是讲生存曲线最通俗易懂的公众号推送!
理解了横坐标是相对时间,也理解了纵坐标是根据实际情况推算出的生存率。不难理解生存曲线的双重性质:一、基于真实数据,二、统计估计。
那么也就可以理解临床研究中给出的种种结论了。【在编辑这段时,这种感觉又出现了:原本看一段话,看不懂看不透彻;但等你真的捅破了那层窗户纸,再回过头来看这段话,就是原原本本的一段话,再也不能怎么详细解释了,a就是a,b就是b】中位生存时间,即生存率(纵坐标)为0.5时对应的横坐标时间。在前文图中,奥西替尼组和EGFR-TKI组的中位总生存期分别为38.6个月和31.8个月。

图源网络,侵删
在本图中,POD 6-12months和POD <6months的五年生存率分别为11%和15%。

图源网络,侵删
这个例图引入了一个新概念-风险表。要注意的是,风险表是K-M计算的数据基础,但不是原始数据本身;风险表是计算过程的中间产物,是连接原始数据和生存曲线的桥梁。
原始数据:个体化的、连续的、包含具体日期
风险表:离散化的、按时间点汇总、只显示"还有多少人"
可以这么理解,风险表是原始数据降维处理后的结果。一般来讲,曲线末端有差异时,必须看风险表数字是否支持。
从原始数据到风险表,再到生存率,就更好理解K-M曲线的创建思路了。