一、数据下载

1. GEOquery网络下载

  1. rm(list = ls())
  2. library(GEOquery)
  3. gse_number = "GSE56649"
  4. eSet <- getGEO(gse_number,
  5. destdir = '.',
  6. getGPL = F)
  7. class(eSet)
  8. length(eSet)
  9. eSet = eSet[[1]]

2. 网页上下载表达矩阵,用R读取

# 读取 series_matrix文件
eSet <- getGEO(filename = "GSE21257_series_matrix.txt.gz", getGPL = F)

3. 其它平台下载处理好的矩阵和临床信息

http://sangerbox.com/

二、提取表达矩阵

exp <- exprs(eSet)
exp[1:4,1:4]
exp = log2(exp+1)
boxplot(exp)

三、提取临床信息

pd <- pData(eSet)
colnames(pd)

三、调整pd的行名顺序与exp列名完全一致

p = identical(rownames(pd),colnames(exp));p
if(!p) exp = exp[,match(rownames(pd),colnames(exp))]

四、提取芯片平台编号并保存数据

gpl_number <- eSet@annotation
save(gse_number,pd,exp,gpl_number,file = "step1output.Rdata")