image.png

图表介绍

热图

输入数据:数值型矩阵/数据框,颜色指代数值大小
image.png

散点图和箱线图

箱线图的输入数据:连续型向量和有重复值的离散型向量
image.png
image.png
离群点的界定
image.png

单个基因在两组之间的表达量差异
要求:同一个分组对应同一个关键词
向量的下标与矩阵的列一一对应
image.png

火山图

image.png

logFC的应用

FC(foldchange):处理组平均值/对照组~
logFC:FC取log2
image.png
logFC的取值范围一般是10以内;
常见阈值:1、2、1.2、2.2、0.585=log2(1.5)
image.png

image.png

image.png

主成分分析

作用:降维。
将多指标转化为主成分(少数) ➡️ 主成分回将样本聚类,坐标上的点(实为样本)距离越远,提示样本差异越大
主成分分析前:
image.png
主成分分析后:
image.png

image.png

GEO背景知识+表达芯片分析思路

1、表达数据实验设计

目的:差异分析和富集分析——解释现象
有差异的材料——差异基因——找功能/关联——解释差异,缩小基因范围

2、数据库

GEO2R含有r资料的数据库,不建议使用
image.png
image.png

image.png

GEO相关介绍 - 图18

image.png

3、基因表达芯片的原理

探针的表达量表示基因的表达量
image.png
image.png

4、表达矩阵

image.png

富集分析

富集:衡量某条通路里的差异基因是否足够多,多时即富集
image.png

数据库:kegg、go,常用的包:clusterProfiler

image.png
image.png

结果解读

image.png
GEO相关介绍 - 图27

image.png

富集可视化

image.png
image.png
image.png
展示通路间的共同基因
image.pngimage.png