来自StatQuest
过去,当您进行RNA测序时,您以RPKM(Reads Per Kilobase Million 每千碱基百万个读数)或FPKM(Fragments Per Kilobase Million 每千碱基百万个碎片)报告结果。但是,TPM(Transcripts Per Kilobase Million每千碱基记录本)现在变得非常流行。由于这些术语似乎有很多混乱,我认为我将使用StatQuest清除所有内容。
这三个指标试图对测序深度和基因长度进行标准化。这是针对RPKM的操作方法:
- 计算样本中的总读数,并将该数字除以1,000,000-这是我们的“每百万”缩放比例。
- 将读取计数除以“每百万”缩放比例。这会规范化测序深度,使您的读数达到百万分之一(RPM)
- 将RPM值除以基因长度(以千碱基为单位)。这为您提供了RPKM。
FPKM与RPKM非常相似。RPKM是针对单端RNA-seq制作的,其中每个读数对应于一个已测序的单个片段。FPKM用于配对末端RNA-seq。使用成对末端RNA-seq,两个读段可以对应一个片段,或者,如果该对中的一个读段没有作图,则一个读段可以对应一个片段。RPKM和FPKM之间的唯一区别是FPKM考虑到两次读取可以映射到一个片段(因此它不会对该片段进行两次计数)。
TPM与RPKM和FPKM非常相似。唯一的区别是操作顺序。这是您计算TPM的方法:
- 将读数计数除以每个基因的长度(以千碱基为单位)。这样就可以得到每千个基数(RPK)的读数。
- 计算样本中所有RPK值,然后将其除以1,000,000。这是您的“每百万”缩放比例。
- 将RPK值除以“每百万”比例因子。这为您提供了TPM。
因此,您会看到,在计算TPM时,唯一的区别是先对基因长度进行归一化,然后对序列深度进行归一化。但是,这种差异的影响非常深远。
使用TPM时,每个样本中所有TPM的总和是相同的。这样可以更轻松地比较每个样本中映射到基因的读段的比例。相反,使用RPKM和FPKM,每个样本中的标准化读数之和可能会有所不同,这使得直接比较样本变得更加困难。
这是一个例子。如果样品1中基因A的TPM为3.33,而样品B中TPM为3.33,则我知道这两个样品中映射到基因A的总读数的比例完全相同。这是因为两个样本中的TPM的总和总是相同(因此,无论您要查看的是什么样本,计算比例所需要的分母都是相同的。)
使用RPKM或FPKM,每个样本中的标准化读数之和可能不同。因此,如果样本1中基因A的RPKM为3.33,样本2中的RPKM为3.33,我将不知道样本1中与基因2映射的基因A的读取比例是否相同,这是因为分母需要计算两个样本的比例可能会有所不同。
来源– StatQuest