RNA-seq 基础概念 - RPKM，FPKM和TPM明确解释| RNA-Seq博客 - 《生物信息学》

来自StatQuest

过去，当您进行RNA测序时，您以RPKM（Reads Per Kilobase Million 每千碱基百万个读数）或FPKM（Fragments Per Kilobase Million 每千碱基百万个碎片）报告结果。但是，TPM（Transcripts Per Kilobase Million每千碱基记录本）现在变得非常流行。由于这些术语似乎有很多混乱，我认为我将使用StatQuest清除所有内容。

这三个指标试图对测序深度和基因长度进行标准化。这是针对RPKM的操作方法：

计算样本中的总读数，并将该数字除以1,000,000-这是我们的“每百万”缩放比例。
将读取计数除以“每百万”缩放比例。这会规范化测序深度，使您的读数达到百万分之一（RPM）
将RPM值除以基因长度（以千碱基为单位）。这为您提供了RPKM。

FPKM与RPKM非常相似。RPKM是针对单端RNA-seq制作的，其中每个读数对应于一个已测序的单个片段。FPKM用于配对末端RNA-seq。使用成对末端RNA-seq，两个读段可以对应一个片段，或者，如果该对中的一个读段没有作图，则一个读段可以对应一个片段。RPKM和FPKM之间的唯一区别是FPKM考虑到两次读取可以映射到一个片段（因此它不会对该片段进行两次计数）。

TPM与RPKM和FPKM非常相似。唯一的区别是操作顺序。这是您计算TPM的方法：

将读数计数除以每个基因的长度（以千碱基为单位）。这样就可以得到每千个基数（RPK）的读数。
计算样本中所有RPK值，然后将其除以1,000,000。这是您的“每百万”缩放比例。
将RPK值除以“每百万”比例因子。这为您提供了TPM。

因此，您会看到，在计算TPM时，唯一的区别是先对基因长度进行归一化，然后对序列深度进行归一化。但是，这种差异的影响非常深远。

使用TPM时，每个样本中所有TPM的总和是相同的。这样可以更轻松地比较每个样本中映射到基因的读段的比例。相反，使用RPKM和FPKM，每个样本中的标准化读数之和可能会有所不同，这使得直接比较样本变得更加困难。

这是一个例子。如果样品1中基因A的TPM为3.33，而样品B中TPM为3.33，则我知道这两个样品中映射到基因A的总读数的比例完全相同。这是因为两个样本中的TPM的总和总是相同（因此，无论您要查看的是什么样本，计算比例所需要的分母都是相同的。）

使用RPKM或FPKM，每个样本中的标准化读数之和可能不同。因此，如果样本1中基因A的RPKM为3.33，样本2中的RPKM为3.33，我将不知道样本1中与基因2映射的基因A的读取比例是否相同，这是因为分母需要计算两个样本的比例可能会有所不同。

来源– StatQuest

标签：FPKM rpkm StatQuest TPM