图表介绍
热图
散点图和箱线图
箱线图的输入数据:连续型向量和有重复值的离散型向量
离群点的界定
单个基因在两组之间的表达量差异
要求:同一个分组对应同一个关键词
向量的下标与矩阵的列一一对应
火山图
logFC的应用
FC(foldchange):处理组平均值/对照组~
logFC:FC取log2
logFC的取值范围一般是10以内;
常见阈值:1、2、1.2、2.2、0.585=log2(1.5)
主成分分析
作用:降维。
将多指标转化为主成分(少数) ➡️ 主成分回将样本聚类,坐标上的点(实为样本)距离越远,提示样本差异越大
主成分分析前:
主成分分析后:
GEO背景知识+表达芯片分析思路
1、表达数据实验设计
目的:差异分析和富集分析——解释现象
有差异的材料——差异基因——找功能/关联——解释差异,缩小基因范围
2、数据库
GEO2R含有r资料的数据库,不建议使用
3、基因表达芯片的原理
4、表达矩阵
富集分析
富集:衡量某条通路里的差异基因是否足够多,多时即富集
数据库:kegg、go,常用的包:clusterProfiler
结果解读
富集可视化
展示通路间的共同基因