GEO背景知识
实验设计
数据库介绍
数据集GSE(表达矩阵+实验设计描述) 平台信息(探针名与基因对应关系) 官方网页分析工具-GEO2R
常见缩写:
GSM:用户提交给GEO的样本数据 GSE:一个完整的研究,包括对于研究、数据的描述和总结 GPL:用户测序使用的芯片/平台
图形简介
热图
输入数据是数值型变量; 颜色表示数值的大小(默认越红越大)。
散点图和箱线图
输入的数据是数值型变量(每个点的取值)和字符型变量(每个点的分组)。
箱线图各点代表的意思。
利用箱线图可以考察一个基因在不同分组中的表达量差异。
火山图
横轴表示log2FoldChange(变化差异) 纵轴表示p-value(显著性)
PCA图
主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。
表达矩阵
横轴为探针名;纵轴为样本名。
分析思路
差异分析
概述
- 本质上是R包和函数
- 需要准备好输入数据,用对函数和参数
- 需要看帮助文档
转录组数据差异分析三大R包:limma(voom)、edgeR、Deseq2
需要注意数据格式:array与高通量测序具有不同的分析方法。
探针注释
https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA
可视化
富集分析
ID转换
ID包括Gene symble,EntrenzID,Ensemble ID等,用于不同的分析过程。
KEGG分析
KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究,以“理解生物系统的高级功能和实用程序资源库”著称。
GO分析
基因本体(Gene Ontology,GO)是一个在生物信息学领域中广泛使用的本体。1998年由研究三种模式(果蝇、小鼠和酵母)基因组的研究者共同发起组织了一个称为基因本体联盟的专业团队。创建基因本体的初衷是希望提供一个可具代表性的规范化的基因和基因产物特性的术语描绘或词义解释的工作平台。现在已包含数十个动物、植物、微生物的数据库。基因本体涉及的基因和基因产物词汇分为三大类,涵盖生物学的三个方面:
细胞组分(cellular component):细胞的每个部分和细胞外环境。 分子功能(molecular function):可以描述为分子水平的活性,如催化或结合活性。 生物过程(biological process):生物过程系指由一个或多个分子功能有序组合而产生的系列事件。
其定义有广义和狭义之分,在词义上可以区分为泛指和特指。一般规律是,一个过程是由多个不同的步骤组成。
通过将差异基因做GO富集分析,可以把基因按照不同的功能进行归类,达到对基因进行注释和分类的目的。