一、图表介绍

1.热图

输入数据是数值型矩阵/数据框,颜色的变化表示数值的大小
热图.png

2.箱线图

输入数据是一个连续型向量和一个有重复值的离散型向量(见箱线图笔记)
注意:向量的下标与表达矩阵的列一一对应(分组)

3.火山图

背景知识:
1.基因表达量大多是取log2后的数值
2.logFC:log(处理组数据平均数/对照组数据平均数)
火山图.png

4.主成分分析

把多指标转化为少数几个综合指标(即主成分)
同一分组是否成簇(组内重复好),中心点之间是否有距离(组间差别大)
样本与样本之间的距离代表样本与样本的相似程度
主成分.png

二、GEO数据分析

1.分析思路

分析思路.png

2.表达矩阵

表达矩阵.png

3.富集分析

富集分析.png

(1)KEGG:

每个信号通路可以理解为基因的集合
GeneRatio=该通路的差异基因数/能够对应到数据框中的差异基因总数
BgRatio=该通路总共多少个基因/数据框中所有通路总共多少个基因
衡量一个通路里的基因在差异基因里是否足够多

(2)GO

细胞组分、分子功能、生物过程

三、代码分析流程

代码分析.png
其中第2步和第3步是重点!
不属于输入数据的参数,不看不踩坑!

图片均来自于生信技能树小洁老师