一、碱基变化命名规则
c.76A>C:第 76 位碱基 A 突变为 C
c.-14G>C:翻译起始位点 5’端第 14bp,即从 ATG 密码子向 5’端数第 14 位碱基 G 突变为 C
c.88+1G>T:第 88 位下游第 1 位碱基 G 突变为 T(在下一个内含子区域,该点介于编码区第 88bp 到第 89bp 之间)
c.89-2A>C:第 89 位上游第 2 位碱基 A 突变为 C(在上一个内含子区域,该点介于编码区第 88bp 到第 89bp 之间)
c.*46T>A:翻译终止位点 3’端第 46bp,即从终止密码子向 3’端数第 46 位碱基 T 突变为 A
剪接位点非标准命名:c.IVS1+1G→A 等 IVS 类型的命名为非标准命名,注:IVS 代表间于两个外显子之间的内含子序列
二、氨基酸变化命名规则
1、changes(同义突变)
标准命名:p.(Leu54=)
含义:第 54 位 Leu 未发生改变
非标准命名:p.(Leu54Leu), p.(L54L)
2、missense
variant(错义突变)
标准命名:p.Trp26Cys
含义:第 26 位色氨酸(Tryptophan,Trp,W)变成半胱氨酸(Cysteine,Cys,C)
3、nonsense
variant(无义突变)
标准命名:p.Trp26Ter 或者 p.Trp26*
含义:第 26 位色氨酸(Tryptophan,Trp,W)变成无,即翻译从第 26 位提前终止
4、Duplications(重复)
标准命名:p.Gly4_Gln6dup
含义:第 4 位甘氨酸(Glycine,Gly,G)到第 6 位谷氨酰胺(Glutamine,Gln,Q)发生重复,氨基酸序列从 MKMGHQQQCC 变成 MKMGHQGHQQQCC
5、Indels(Deletion/insertions,插入,缺失)
5.1、in-frame
Insertions
标准命名:p.Lys2_Met3insGlnSerLys
含义:第 2 位赖氨酸(Lysine,Lys,
K)和第 3 位甲硫氨酸(Methionine,Met,M)之间插入了 3 个氨基酸,分别是 Gln、Ser 和 Lys
5.2、in-frame
deletions
标准命名:p.Gln8del
含义:第 8 位谷氨酰胺(Glutamine,Gln,Q)缺失,氨基酸序列从 MKMGHQQQCC 变成 MKMGHQQCC
5.3、frame
shifts
标准命名:p.Arg97Glyfs26 或者 p.Arg97GlyfsTer26
缩写:p.Arg97fs
含义:Arg97Gly:第 1 个受影响的氨基酸是 Arg,突变后变成了 Gly;
fs: frame shifts 的简称
26:新的阅读框内翻译终止密码子的位置,将 Arg 作为第 1 个往后数,数到第 26 位是终止密码子
人类基因组变异协会(HGVS:Human Genome Variation Society)规则是目前学术界所公认的突变命名规则。
从不同的维度出发,相同的基因突变可以有多种不同的表现形式,例如,参考序列的不同、表现层次的不同(DNA、RNA 或蛋白质水平)都会导致突变的表现方式产生差异。
目前,通用的参考序列主要包括:基因组参考序列(以前缀“g.”表示)、cDNA 参考序列(以前缀“c.”表示)、非编码 DNA 参考序列
(以前缀“n.”表示)、RNA 参考序列(以前缀“r.”表示)、蛋白质参考序列(以前缀“p.”表示)。
参考序列的选择非常重要。在 DNA 水平描述突变时,内含子与相邻外显子的关系对于临床研究往往非常重要,为了能更好地阐明内含子的变异,通常会选择 cDNA 作为参考序列,这是因为以 cDNA 作为参考序列,能够更好的描述内含子中突变碱基与相邻外显子之间的关系。另外,基因突变也常以蛋白质水平的变化进行描述。
举例:
A.
以 cDNA 为参考序列的突变表达方式
- 替换:指与参考序列相比,一种碱基被另一种碱基所取代;以符号“>”进行表示;如:c.123A>T,表示与参考序列相比,第 123 位的 A 被 T 所取代;
- 缺失:指与参考序列相比,一个或多个碱基缺失的现象;以“del”进行表示;如:c.2052delA,表示与参考序列相比,第 2052 位发生 A 的缺失;
- 插入:指与参考序列相比,一个或多个碱基增添的现象;以“ins”进行表示;如:c.5756_5757insAGG,表示与参考序列相比,在第 5756 与 5757 位点之间插入了三个碱基 AGG;
- 缺失插入:指与参考序列相比,一个或多个碱基被其他碱基所取代的现象,并且这种变异不包括替换突变、倒置以及转换突变;以“delins”进行表示;如:c.6775delinsGA,表示与参考序列相比,第 6775 位缺失了一个碱基,同时缺失的碱基被 GA 做取代;
- 重复:指与参考序列相比,包含一个或多个碱基的拷贝以插入的形式直接掺入序列中的现象;以“dup”进行表示;如:c.6_8dupT,表示从第 6 位到第 8 位发生了 T 的重复;
B. 为了更好地理解内含子中碱基突变的表现形式,我们首先来了解一下 DNA 序列中各碱基所处的位置。从起始密码开始到终止密码为止,外显子序列的编号是连续的,而 5’非翻译区、3’非翻译区以及内含子区的编码都是与外显子序列的编码密切相关的。
因此,内含子中碱基的替换、缺失、插入等突变的表现形式就可以分别表示为:
- c.36+1G>T(c.36 前一段编码区域或者说前面一个外显子的最后一个碱基位于编码区 36 位,+1 代表这个外显子挨着的后面的内含子的第一个碱基);
- c.(4071+14072-1)(5154+1_5155-1)del(表示两个外显子之间的序列发生缺失);
- c.37+1_37+2insATC(表示在“37+1”与“37+2”位点间插入碱基 ATC);
- c.4183+795C>T(c.4183 前一段编码区域或前面一个外显子的最后一个碱基位于编码区 4183 位,+795 代表这个外显子挨着内含子的第 795 个碱基) 。
C.
以蛋白质为参考序列的突变表达方式
- 替换:如 p.Trp26Cys,表示第 26 位的 Trp 被 Cys 取代(错义突变);p.Trp26Ter (p.Trp26*),表示第 26 位的 Trp 变为终止密码(无义突变);p.Cys123=,表示基因突变之后,氨基酸没有发生改变(同义突变);
- 缺失:如 p.Ala3_Ser5del,表示多肽序列中从第 3 位的 Ala 到第 5 位的 Ser 发生了缺失;
- 插入:如 p.Lys2_Gly3insGlnSerLys,表示在第 2 位的 Lys 和第 3 位的 Gly 之间插入了 GlnSerLys;
- 插入缺失:如 p.Cys28delinsTrpVal,表示第 28 位的 Cys 缺失,同时被 TrpVal 取代;
5.重复:如 p.Ala2[10],表示第 2 位的 Ala 重复了 10 次;
- 移码突变:在起始密码子和终止密码子之间的读码框发生了改变;以“fx”进行表示;如 p.Arg97ProfsTer23,表示第 97 位的 Arg 是首个发生改变的氨基酸,且 Arg 变为 Pro,同时发生移码突变后,终止密码的位置变为第 23 位;