K 2021.2.13

0109转录组-1.功能数据库

02:30 转录组分析-Day5——功能分析

基因的功能实际上是基因产物的功能

05:33 GO数据库(重点掌握)Gene Ontology

问题一:一个基因多种功能 TP53

问题二:生物学功能的多种描述

为什么要建立GO

  1. 各种水平
  2. 解决生物学定义混乱的现象,不同生物数据库使用统一的标准语义库

对基因和蛋白质功能从多方面进行限定和描述,并能随研究不断深入更新的语义词汇标准,即基因产物分类标准

GO数据库不是以其自身为中心而是依靠外部数据库,这些外部数据库中收录的基因及其产物都将用GO定义的词汇进行注释。因此GO是与时俱进与相互合作的代表,它致力于统一基因及其产物注释的方式。

本体论:

  1. MF:做什么,描述在个体分子生物学上的活性,如催化活性或结合活性。
  2. BP:由分子功能有序地组成的,具有多个步骤的个过程,如细胞周期。
  3. CC:指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核糖体,蛋白酶体等),即基因产物在什么地方起作用,(亚细胞定位)

Terms(names for concepts、definitions)注释系统中毎一个结点(term)都是基因或蛋白功能的一种命名及描述

term对应id:”GO:xxxxx”

同义词描述

16:39 GO的结构:语义关系图

有向图:从叶子节点—>根节点

关系:

  1. is_a
  2. part_of
  3. regulates

没有闭环

19:51 GO term之间的关系

is_a:具有传递性 is a·is a → is a

part_of:具有传递性 part_of·part_of → part_of

part_of·is a/is a·part_of → part_of

调节控制关系及其推导:

  1. 被调节的对象可以是一个过程,如生物通路、酶促反应等,也可以是一个参数值,如细胞大小,pH值等。
  2. 调节控制关系为充分非必要

regulates:

Regulates·isa → regulates、isa· regulates → regulates以及 regulates· part of → regulates

节点关系并非全部来自实验验证,大量来自计算机预测

IDA注释表明该节点经过实验验证

27:45 KEGG数据库

KEGG, Kyoto Encyclopedia of genes and Genomes

KEGG是系统地分析基因功能、链接基因组信息和功能信息的数据库,旨在揭示生命现象的遗传与化学蓝图。

来源:学术论文+生物学实验,可靠性高

最大特点:包含18个子数据库,应用最多:KEGG PATHWAY数据库

四个类别:系统信息、基因组信息,化学信息和健康信息

K 2021.2.13 - 图1

KEGG特点

强大的图形功能

37:15 kegg中符号的含义

kegg通路本质是一副线框图,即由点和线构成的基因-代谢物关系图。

两大元素:箭头和节点

  1. 点代表通路图中的节点,主要由基因、代谢物和上下游隔壁通路构成。对应三种不同的形状的符号(长方形、圆点和钝角长方形)。<br />
  2. 线代表通路中分子的互作关系,主要由几类箭头构成。

三类关系:就是点和线构成的分子间的关系类型。

关系类型可以分为

• 蛋白-蛋白互作关系
• 基因表达关系
• 酶-酶关系
K 2021.2.13 - 图2

43:25 KEGG Identifier

KEGG PATHWAY数据库

特征:prefix + 5个数字

  1. map:通用通路ID,适用于所有物种
  2. hsa:物种为人的通路ID
  3. ko:对于每个功能已知的基因,会把和其同源的基因所有基因都归为一类,就是每一个KO, 并赋予一个K number,用该基因的功能作为这个KO的功能

物种特异性通路:绿色的框框表示专属于这个物种

0109转录组-2功能主释和富集

功能注释

基因表达谱

DEA cut-off

查询感兴趣的基因/基因集合参与哪些可能的生命过程,起到了什么作用

K 2021.2.13 - 图3

例子1:查看单个疾病风险基因注释到哪些通路

  1. 1956 blue

例子2:查看多个疾病风险基因注释到哪些通路(适用于复杂疾病) 列表

  1. 19 red
  2. 368 red

多基因列表存放在 /code-down/data/DEG_limma_voom_all-2.txt

23:25 功能富集分析的原因

直接注释的结果得到大量的功能结点

功能具有概念上的交叠现象

富集分析方法通常是 分析一组基因在某个功能结点上是否过出现(overpresentation)。

显著注释的功能节点:强调统计学上的显著性

功能富集分析的统计方法

  1. 超几何分布及累积超几何分布 Y叔 cluster-profile R包
  2. 二项分布及累积二项分布
  3. 卡方检验或Fisher精确检验

功能富集分析-结果可视化

  1. barplot
  2. dotplot

由于KEGG数据库只存储了约8k的基因集,在取交集时差异基因与背景基因会减少

genea/genep 为一常数

enrich_factor值越大,注释到通路的基因越多

0109转录组-GSEA&GSVA

如果没有筛选到差异表达基因怎么办?

GSEA原理介绍

解释全基因组的表达谱

预先定义的基因集 一致性的差异

  1. 预先定义的基因集:一个基因集合,包含的感兴趣的基因
  2. 两个生物学状态:即实验组和对照组,可以是癌症和正常,男和女
  3. 一致性差异:某个通 路/GO条目中的基因集在实验组和对照组中呈现出一 致的上调或者下调趋势

04:00 GSEA步骤

  1. 所有基因的表达谱,样品分为两类,以1/2定义
  2. 基因按照表达与分类的相关性排序
  3. 计算富集打分(ES)忽略
  4. 评估ES的显著性(p值)
  5. 多重检验校正(FDR值)

08:52 GSEA预定义基因集合MSigDB

位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,并将其保存在MSigDB

关注C2:包含了已知数据库,文献和专家支持的基因集信息,包含5529 gene sets

13:48 GSEA实例数据

非必须:Gene sets和Chip annotations

  1. Expression dataset file gct文件——.gct
  2. Phenotype labels file cls文件——.cls
  3. Gene sets file gmt文件 ——.gmt 列不相等

GSEA软件使用

高级参数:针对芯片数据,选择策略

可存储为svg矢量图

结果解读

K 2021.2.13 - 图4

最重要:中间的竖线为感兴趣基因集所处的位置

size:通路所包含基因数(过滤掉表达谱中未出现的基因)

ES:打分

代码分析版本:依赖于R包 GSEABase,优点是比较灵活

通过enrichplot实现可视化

山峦图

参考:《R进行基因富集分析——clusterProfiler系列分析GSEA》

https://mp.weixin.qq.com/s?__biz=Mzg4MzAzNDExMQ%3D%3D&mid=2247483744&idx=1&sn=b0877a5f4a154f40a7d884e2b961d8b6&scene=45#wechat_redirect

基因集变异分析(Gene Set Variation Analysis,GSVA),一种以非监督方式对一个简单群体评估通路活性变异的GSE方法

49:20 转录组分析—总结

K 2021.2.13 - 图5