take “GSE53757” for example

不可以无脑运行!!! 注意注释的地方!

需要用到的R包

  1. library(GEOquery)
  2. library(stringr)

(一)GEOquery下载芯片

  1. gse_number = "GSE53757" # 这里改成需要下载的GSE编号
  2. eSet <- getGEO(gse_number,
  3. destdir = './import/GEO/',
  4. getGPL = F)
  5. eSet = eSet[[1]]

(二)临床数据整理

GEO数据库里,好像很少带有生存信息的,所以主要是为了分组

  1. pd <- pData(eSet) # pd是包含所有临床信息的数据框
  2. group = ifelse(str_detect(pd$`tissue:ch1`, "normal"), "normal", "tumor") # 改!字符串匹配生成分组

(三)表达矩阵整理

主要是把探针ID转变成gene symbol,一共有四种方法,我只用到了第一种,其他几种,用到的时候再补充

  1. exp <- exprs(eSet)
  2. exp = log2(exp+1)
  3. gpl_number <- eSet@annotation # 查看GPL,这个芯片是GPL570

3.1 BiocManager

在下面这个网址里查找gpl_number,得到第三列Bioconductor里的r包名称(箭头处)
网址:http://www.bio-info-trainee.com/1399.html
image.png

3.2 下载soft文件

在geo界面有一个表格
image.png
第一排的soft文件,下载,解压,从不已叹号开头的那一行往后,就是芯片注释,可以另存为csv方便读取,然后r语言替换行名就ok