当前位置：首页>学习笔记>转录组分析学习笔记二:一个表格让你理解FPKM、TPM、raw counts等参数的意义

转录组分析学习笔记二:一个表格让你理解FPKM、TPM、raw counts等参数的意义

2026-04-17 10:50:35

一、转录组数据标准化的核心目的

高通量测序产生的原始 read 计数（Raw Counts）存在固有技术偏差，无法直接用于样本内基因表达比较及样本间差异分析。标准化的核心目标为消除两类系统误差：测序深度偏差与基因长度偏差。测序深度越高，基因捕获的 read 数量越多；基因序列长度越长，测序过程中被检测到的 read 计数也会呈天然上升趋势。目前科研领域通用的定量指标包括 Raw Counts、RPM、RPKM、FPKM、TPM，五类指标通过不同标准化策略校正偏差，适配不同测序场景与研究物种。

二、核心定量指标异同与适用场景

1. 基础指标定义

Raw Counts

原始 read 计数，指比对至参考基因组目标区域的有效测序序列数量，为转录组分析的基础数据，无任何标准化处理，仅可作为差异表达分析的输入文件，不可直接用于表达量比较。

RPM (Reads per million mapped reads)

仅基于测序深度进行标准化，计算每百万条比对 reads 中的基因计数，未校正基因长度带来的偏差，适用于片段长度均一的测序类型，如 miRNA-seq。

RPKM/FPKM

同时校正基因长度与测序深度双因素，为早期真核转录组的主流定量指标。二者计算逻辑一致，核心区别在于计数单元：RPKM 适用于单末端测序数据，以 reads 为计数单位；FPKM 适配双末端测序数据，以片段（Fragment）为单位，避免同源片段重复计数。该指标仅支持单样本内基因表达比较，跨样本定量稳定性差。

TPM (Transcript per million)

在 RPKM/FPKM 校正逻辑的基础上优化归一化顺序，先校正基因长度，再进行全样本总和归一化，强制所有样本的 TPM 总和为 10⁶。该指标彻底解决了跨样本表达量比较的偏差问题，是目前真核与原核转录组定量的金标准，广泛应用于表达量可视化、组间表达趋势分析。

指标	校正因素	适配测序类型	跨样本可比性	核心适用场景	科研应用现状
Raw Counts	无	全类型测序	❌	差异表达分析原始输入	必备基础数据
RPM	测序深度	短片段测序（miRNA-seq）	❌	非编码 RNA 定量	小众专项应用
RPKM	基因长度 + 测序深度	单末端 RNA-seq	❌	旧数据复现、文献比对	淘汰，不推荐使用
FPKM	基因长度 + 测序深度	双末端 RNA-seq	❌	历史数据兼容分析	逐步淘汰，限制使用
TPM	长度 + 深度 + 总和归一化	全类型转录组测序	✅	表达量比较、组间趋势分析	主流首选，通用标准

三、转录组 Mapping 与定量分析软件及实操流程

转录组分析的核心第一步为原始数据质控与参考基因组比对（Mapping），真核生物支持有参、无参两种分析模式；原核生物基因组注释完整，仅可开展有参转录组分析，分析前需提前准备物种参考基因组（fasta 格式）与基因结构注释文件（gtf/gff 格式）。

1. 经典 Mapping 分析软件组合

目前用于序列比对的工具种类丰富，bwa + samtools为科研领域最经典、兼容性最强的组合，适配原核与真核生物，操作流程标准化，具体步骤如下：

2. 细分功能专用软件汇总

（1）数据质控与预处理

FastQC：测序数据质量评估，可视化展示碱基质量、接头污染、GC 含量等核心指标；Trim Galore：自动化切除接头序列与低质量碱基，生成 clean reads 用于下游分析。

（2）高通量比对软件

STAR：真核生物转录组首选比对工具，比对速率与准确率优异，支持可变剪切分析；HISAT2：内存占用低，运算效率高，适配中小型服务器的真核、原核转录组分析。

（3）基因表达定量软件

Salmon/Kallisto：无比对快速定量工具，直接输出 TPM/FPKM 定量结果，运算速度快，适配大样本量分析；featureCounts：轻量化计数工具，精准统计 Raw Counts，兼容原核生物注释文件，是差异分析的主流工具；RSEM：转录本水平精准定量，支持原核与真核生物，可同步生成标准化 TPM 矩阵。

（4）差异表达与功能分析

DESeq2/edgeR：基于 Raw Counts 的差异表达分析 R 包，为基金申报、学术论文的标准分析工具；limma-voom：适配大样本队列分析，运算稳定性强，可结合 TPM 矩阵进行表达趋势验证。

四、总结

在转录组数据分析中，Raw Counts 为差异分析的核心输入，TPM 为表达量比较的唯一标准化指标，RPKM 与 FPKM 因跨样本可比性差，已逐步被科研领域淘汰，仅用于历史数据的复现与比对。原核生物转录组分析需严格遵循有参比对 - 精准计数 - TPM 标准化的流程，优先选用 bwa+samtools 完成序列比对，结合 featureCounts 实现基因定量；真核生物可根据样本量与研究需求，灵活选择 STAR、Salmon 等高效工具。标准化的定量指标选择与分析流程，是保证转录组数据可靠性、提升研究结果说服力的核心基础，也是基金申报与学术论文撰写的关键环节。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

转录组分析学习笔记二:一个表格让你理解FPKM、TPM、raw counts等参数的意义

一、转录组数据标准化的核心目的

二、核心定量指标异同与适用场景

1. 基础指标定义

Raw Counts

RPM (Reads per million mapped reads)

RPKM/FPKM

TPM (Transcript per million)

三、转录组 Mapping 与定量分析软件及实操流程

1. 经典 Mapping 分析软件组合

2. 细分功能专用软件汇总

（1）数据质控与预处理

（2）高通量比对软件

（3）基因表达定量软件

（4）差异表达与功能分析

四、总结

最新文章

热门文章

随机文章

转录组分析学习笔记二:一个表格让你理解FPKM、TPM、raw counts等参数的意义

一、转录组数据标准化的核心目的

二、核心定量指标异同与适用场景

1. 基础指标定义

Raw Counts

RPM (Reads per million mapped reads)

RPKM/FPKM

TPM (Transcript per million)

三、转录组 Mapping 与定量分析软件及实操流程

1. 经典 Mapping 分析软件组合

2. 细分功能专用软件汇总

（1）数据质控与预处理

（2）高通量比对软件

（3）基因表达定量软件

（4）差异表达与功能分析

四、总结

【学习笔记】90学时培训,我蹭到了一节喜欢的课

我的英语学习笔记:死亡帽蘑菇

最新文章

热门文章

随机文章