GEO背景知识

实验设计

image.png

数据库介绍

image.png

数据集GSE(表达矩阵+实验设计描述) 平台信息(探针名与基因对应关系) 官方网页分析工具-GEO2R

常见缩写:

GSM:用户提交给GEO的样本数据 GSE:一个完整的研究,包括对于研究、数据的描述和总结 GPL:用户测序使用的芯片/平台

image.png

图形简介

热图

image.png

输入数据是数值型变量; 颜色表示数值的大小(默认越红越大)。

散点图和箱线图

image.png

输入的数据是数值型变量(每个点的取值)和字符型变量(每个点的分组)。

image.png
image.png

箱线图各点代表的意思。

image.png

利用箱线图可以考察一个基因在不同分组中的表达量差异。

火山图

image.png

横轴表示log2FoldChange(变化差异) 纵轴表示p-value(显著性)

PCA图

image.png

主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)

表达矩阵

image.png

横轴为探针名;纵轴为样本名。

分析思路

01 GEO基础知识简介 - 图12

差异分析

概述

  • 本质上是R包和函数
  • 需要准备好输入数据,用对函数和参数
  • 需要看帮助文档

    转录组数据差异分析三大R包:limma(voom)、edgeR、Deseq2

image.png

需要注意数据格式:array与高通量测序具有不同的分析方法

探针注释

image.png
https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA
image.png

可视化

可以使用火山图,热图和条形图,相关性图
image.png
image.png
image.png

富集分析

ID转换

ID包括Gene symble,EntrenzID,Ensemble ID等,用于不同的分析过程。

image.png

KEGG分析

KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究,以“理解生物系统的高级功能和实用程序资源库”著称。

https://www.genome.jp/kegg/

GO分析

基因本体(Gene Ontology,GO)是一个在生物信息学领域中广泛使用的本体。1998年由研究三种模式(果蝇、小鼠和酵母)基因组的研究者共同发起组织了一个称为基因本体联盟的专业团队。创建基因本体的初衷是希望提供一个可具代表性的规范化的基因和基因产物特性的术语描绘或词义解释的工作平台。现在已包含数十个动物、植物、微生物的数据库。基因本体涉及的基因和基因产物词汇分为三大类,涵盖生物学的三个方面:

细胞组分(cellular component):细胞的每个部分和细胞外环境。 分子功能(molecular function):可以描述为分子水平的活性,如催化或结合活性。 生物过程(biological process):生物过程系指由一个或多个分子功能有序组合而产生的系列事件。

其定义有广义和狭义之分,在词义上可以区分为泛指和特指。一般规律是,一个过程是由多个不同的步骤组成。
通过将差异基因做GO富集分析,可以把基因按照不同的功能进行归类,达到对基因进行注释和分类的目的。

富集结果分析

采用clusterprofiler进行富集分析。
image.png
image.png

可视化

采用clusterprofiler进行可视化。
image.png
image.png

展示通路间的共同基因

image.png
image.png
image.png
image.png