一、图表介绍
1.热图
2.箱线图
输入数据是一个连续型向量和一个有重复值的离散型向量(见箱线图笔记)
注意:向量的下标与表达矩阵的列一一对应(分组)
3.火山图
背景知识:
1.基因表达量大多是取log2后的数值
2.logFC:log(处理组数据平均数/对照组数据平均数)
4.主成分分析
把多指标转化为少数几个综合指标(即主成分)
同一分组是否成簇(组内重复好),中心点之间是否有距离(组间差别大)
样本与样本之间的距离代表样本与样本的相似程度
二、GEO数据分析
1.分析思路
2.表达矩阵
3.富集分析
(1)KEGG:
每个信号通路可以理解为基因的集合
GeneRatio=该通路的差异基因数/能够对应到数据框中的差异基因总数
BgRatio=该通路总共多少个基因/数据框中所有通路总共多少个基因
衡量一个通路里的基因在差异基因里是否足够多
(2)GO
三、代码分析流程
其中第2步和第3步是重点!
不属于输入数据的参数,不看不踩坑!
图片均来自于生信技能树小洁老师