一、数据下载
1. GEOquery网络下载
rm(list = ls())library(GEOquery)gse_number = "GSE56649"eSet <- getGEO(gse_number, destdir = '.', getGPL = F)class(eSet)length(eSet)eSet = eSet[[1]]
2. 网页上下载表达矩阵,用R读取
# 读取 series_matrix文件
eSet <- getGEO(filename = "GSE21257_series_matrix.txt.gz", getGPL = F)
3. 其它平台下载处理好的矩阵和临床信息
http://sangerbox.com/
二、提取表达矩阵
exp <- exprs(eSet)
exp[1:4,1:4]
exp = log2(exp+1)
boxplot(exp)
三、提取临床信息
pd <- pData(eSet)
colnames(pd)
三、调整pd的行名顺序与exp列名完全一致
p = identical(rownames(pd),colnames(exp));p
if(!p) exp = exp[,match(rownames(pd),colnames(exp))]
四、提取芯片平台编号并保存数据
gpl_number <- eSet@annotation
save(gse_number,pd,exp,gpl_number,file = "step1output.Rdata")