1.与转录分析是不同的 2.因为之前在这里经历的实在是太多了,所以这里就不做全局的整理,主要记录一些tips
2022.4.8
- 矩阵/数据框的隐式循环
apply()函数 1行,2列
但对于列表,;apply():结果会生出列表 sapply()把返回结果变为向量或矩阵
- log(x/y) = logx-logy P值越小越有信心认为差异大
- 热图的输入数据是数值型矩阵/数据框
- 箱线图:输入数据一个是数值型向量,还有一个是字符串向量(重复值)
- 矩阵取出的一行数据会带列名,也就是向量的names
- PCA中美个图的大点指的是中心位置
- 富集分析种 Gene Ratio 19/468 19是该通路的差异基因;468是分析的总的差异基因可以匹配到KEFF数据库中,而不是这条通路的
BgRatio 36/7916 36是该通路一共有的基因,7916是KEGG中的所有基因
GO term可以提供关系图(所以可以找到一些都有关系的基因)
- 数据下载后,“./GSExxxxx” 这个点意思是在工作目录下
- 表达矩阵的数值还得自己看一看,是不是小于15或20
- 探针注释的方法:捷径/四种常规的主食方法
- 多个探针对应一个个gene symbol:最大值/平均/R包随机取
- PCA的修改,需要把数据进行转置处理才能整合为像一个的格式
- scale = row 把数据按行进行标准化处理——忽略基因之间的表达数值的绝对值大小,保留同一基因在不同样本间的比较
breaks = seq(-3,3,length.out = 100) 100 是生成100个数,也就是是说热图中有100个渐变的颜色
-3,3 尽量均一,避免礼裙纸对整张图的影响
- 可能存在聚类与分组的不匹配——解决办法: 全部基因:不匹配可以接受
差异基因:比去匹配,所以换基因来画,或者直接不聚类也可以
- 热途中,annotation_col = annotation_col 后者是自己根据实际请求group_list 生成的
- read.table 中 quote = ‘\’ 其实是read.delim()的默认参数,就是单双引号的区别
2022.4.9
- idmap() 函数中,type=soft,使用官方表格注释;=pipe,信息来自于自主注释表格
- geoChina() 国内服务器,适用于便捷途径
- annoGene()可以对基因进行注释,for example: a = annoGene(IDs, ID type) 括号里分别是一串基因名向量,和;‘symbol’
- PCA的圈是置信区间的意思,三个样本画不出来圈
- roenames = F,不显示行名
- 如何在保存图片时按照相应的比例——width修改
- as.ggplot()可以将热图转化为ggplot的类型的图,所以就可以用patchwork拼图了
- deg表格(差异基因分析结果),p值默认从小到大排列
- cor函数 是将谁放在列名,就是在计算谁的相关性
- paletteer非常好用的配色R包 recordPlot函数可以讲画板里的图直接扣出来,这样就不用管是否是ggplot类型直接拼图了
- Ont = ‘All’ 三个成分都分析 readable = TRUE gene ID直接转化为gene symbol(在分析结果的表格里)
- file.exists(‘xxx’) 判断某个文件是否在工作目录下
- gene其实很容易没发富集KEFF通路上——很正常
- p.adjust 一般比p 值大一些,所以如果用p的话,需要在文章中说明
- source() 不打开某个脚本但是全选打开的意思
- KEGG同路图双向了,即上下跳基因富集在同一个通路上,为了避免麻烦:1 分开画上下调 2少展示几条通路
- cytoscape 大网络太大了 可以展示小网络
- WGCNA 加权网络公表达
最后,小洁老师后面给的多分组以及联合分析的代码和案例,只能自己抽空研究研究了。
如果有空的话自己找个合适的例子看看!