K 2021.2.13

K 2021.2.13

0109转录组-1.功能数据库

02:30 转录组分析-Day5——功能分析

基因的功能实际上是基因产物的功能

05:33 GO数据库（重点掌握）Gene Ontology

问题一：一个基因多种功能 TP53

问题二：生物学功能的多种描述

为什么要建立GO

各种水平
解决生物学定义混乱的现象，不同生物数据库使用统一的标准语义库

对基因和蛋白质功能从多方面进行限定和描述，并能随研究不断深入更新的语义词汇标准，即基因产物分类标准

GO数据库不是以其自身为中心而是依靠外部数据库，这些外部数据库中收录的基因及其产物都将用GO定义的词汇进行注释。因此GO是与时俱进与相互合作的代表，它致力于统一基因及其产物注释的方式。

本体论：

MF：做什么，描述在个体分子生物学上的活性，如催化活性或结合活性。
BP：由分子功能有序地组成的，具有多个步骤的个过程，如细胞周期。
CC：指基因产物位于何种细胞器或基因产物组中（如糙面内质网，核糖体，蛋白酶体等），即基因产物在什么地方起作用，(亚细胞定位)

Terms（names for concepts、definitions）注释系统中毎一个结点（term）都是基因或蛋白功能的一种命名及描述

term对应id：”GO:xxxxx”

同义词描述

16:39 GO的结构：语义关系图

有向图：从叶子节点—>根节点

关系：

    is_a
    part_of
    regulates

没有闭环

19:51 GO term之间的关系

is_a：具有传递性 is a·is a → is a

part_of：具有传递性 part_of·part_of → part_of

part_of·is a/is a·part_of → part_of

调节控制关系及其推导：

被调节的对象可以是一个过程，如生物通路、酶促反应等，也可以是一个参数值，如细胞大小，pH值等。
调节控制关系为充分非必要

regulates：

Regulates·isa → regulates、isa· regulates → regulates以及 regulates· part of → regulates

节点关系并非全部来自实验验证，大量来自计算机预测

IDA注释表明该节点经过实验验证

27:45 KEGG数据库

KEGG, Kyoto Encyclopedia of genes and Genomes

KEGG是系统地分析基因功能、链接基因组信息和功能信息的数据库，旨在揭示生命现象的遗传与化学蓝图。

来源：学术论文+生物学实验，可靠性高

最大特点：包含18个子数据库，应用最多：KEGG PATHWAY数据库

四个类别：系统信息、基因组信息，化学信息和健康信息

K 2021.2.13 - 图1

KEGG特点

强大的图形功能

37:15 kegg中符号的含义

kegg通路本质是一副线框图，即由点和线构成的基因-代谢物关系图。

两大元素：箭头和节点

点代表通路图中的节点，主要由基因、代谢物和上下游隔壁通路构成。对应三种不同的形状的符号（长方形、圆点和钝角长方形）。<br />
线代表通路中分子的互作关系，主要由几类箭头构成。

三类关系：就是点和线构成的分子间的关系类型。

关系类型可以分为

• 蛋白-蛋白互作关系
• 基因表达关系
• 酶-酶关系
K 2021.2.13 - 图2

43:25 KEGG Identifier

KEGG PATHWAY数据库

特征：prefix + 5个数字

map：通用通路ID，适用于所有物种
hsa：物种为人的通路ID
ko：对于每个功能已知的基因，会把和其同源的基因所有基因都归为一类，就是每一个KO, 并赋予一个K number,用该基因的功能作为这个KO的功能

物种特异性通路：绿色的框框表示专属于这个物种

0109转录组-2功能主释和富集

功能注释

基因表达谱

DEA cut-off

查询感兴趣的基因/基因集合参与哪些可能的生命过程，起到了什么作用

K 2021.2.13 - 图3

例子1：查看单个疾病风险基因注释到哪些通路

1956 blue

例子2：查看多个疾病风险基因注释到哪些通路（适用于复杂疾病）列表

19 red
368 red

多基因列表存放在 /code-down/data/DEG_limma_voom_all-2.txt

23:25 功能富集分析的原因

直接注释的结果得到大量的功能结点

功能具有概念上的交叠现象

富集分析方法通常是 分析一组基因在某个功能结点上是否过出现(overpresentation)。

显著注释的功能节点：强调统计学上的显著性

功能富集分析的统计方法

超几何分布及累积超几何分布 Y叔 cluster-profile R包
二项分布及累积二项分布
卡方检验或Fisher精确检验
…

功能富集分析-结果可视化

barplot
dotplot

由于KEGG数据库只存储了约8k的基因集，在取交集时差异基因与背景基因会减少

genea/genep 为一常数

enrich_factor值越大，注释到通路的基因越多

0109转录组-GSEA&GSVA

如果没有筛选到差异表达基因怎么办？

GSEA原理介绍

解释全基因组的表达谱

预先定义的基因集一致性的差异

    预先定义的基因集：一个基因集合，包含的感兴趣的基因
    两个生物学状态：即实验组和对照组，可以是癌症和正常，男和女
    一致性差异：某个通 路/GO条目中的基因集在实验组和对照组中呈现出一 致的上调或者下调趋势

04:00 GSEA步骤

所有基因的表达谱，样品分为两类，以1/2定义
基因按照表达与分类的相关性排序
计算富集打分（ES）忽略
评估ES的显著性（p值）
多重检验校正（FDR值）

08:52 GSEA预定义基因集合MSigDB

从位置，功能，代谢途径，靶标结合等多种角度出发，构建出了许多的基因集合，并将其保存在MSigDB

关注C2：包含了已知数据库，文献和专家支持的基因集信息，包含5529 gene sets

13:48 GSEA实例数据

非必须：Gene sets和Chip annotations

Expression dataset file gct文件——.gct
Phenotype labels file cls文件——.cls
Gene sets file gmt文件 ——.gmt 列不相等

GSEA软件使用

高级参数：针对芯片数据，选择策略

可存储为svg矢量图

结果解读

K 2021.2.13 - 图4

最重要：中间的竖线为感兴趣基因集所处的位置

size：通路所包含基因数（过滤掉表达谱中未出现的基因）

ES：打分

代码分析版本：依赖于R包 GSEABase，优点是比较灵活

通过enrichplot实现可视化

山峦图

参考：《R进行基因富集分析——clusterProfiler系列分析GSEA》

https://mp.weixin.qq.com/s?__biz=Mzg4MzAzNDExMQ%3D%3D&mid=2247483744&idx=1&sn=b0877a5f4a154f40a7d884e2b961d8b6&scene=45#wechat_redirect

基因集变异分析（Gene Set Variation Analysis，GSVA），一种以非监督方式对一个简单群体评估通路活性变异的GSE方法

49:20 转录组分析—总结

K 2021.2.13 - 图5