1.数据下载

(1)下载aspera并配置:

  1. wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
  2. tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
  3. bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
  4. #手动安装需要自行添加环境变量
  5. echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
  6. acsp --help

https://www.jianshu.com/p/112412b8883c

(2)示例数据下载

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778
全国巡讲陪读档案--Day3 - 图1
全国巡讲陪读档案--Day3 - 图2
全国巡讲陪读档案--Day3 - 图3

这是它的原始数据列表,文件内容如下:

  1. SRR1039509
  2. SRR1039508
  3. SRR1039511
  4. SRR1039510
  5. SRR1039512
  6. SRR1039513
  7. SRR1039515
  8. SRR1039514
  9. SRR1039516
  10. SRR1039517
  11. SRR1039519
  12. SRR1039518
  13. SRR1039520
  14. SRR1039521
  15. SRR1039523
  16. SRR1039522

可以将该文件下载下来,通过ftp上传到服务器。

  1. cd ~
  2. 使用重定向将文件存到服务器
  3. cat >list.txt
  4. #粘贴上面的Assession list内容,换行,按ctrl+c

⚠️注意:必须换行后再ctrl+c,否则最后一行会作废

这里面就是要下载的文件的id,要对每个文件做的事情是:
下载,并将它转换为fastq格式。
先拿一个数据试一下是否可以:

  1. prefetch SRR1039510 -O ~
  2. fastq-dump --gzip --split-3 -O ~ SRR1039510.sra

有这么多需要逐一操作太过复杂,所以使用while循环下载sra并转换为fastq。

  1. cat SRR_Acc_List.txt | while read id; do (prefetch ${id} -O ~);done
  2. cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O ~/ ${id}.sra);done

2.fastqc

示例数据在 /teach/project/1.rna/3.rawfq 25000reads/

  1. fastqc -t 2 -o ~/ /teach/project/1.rna/3.raw_fq_ 25000reads/*.rawfq.gz
  2. multiqc ./*zip

输出到了主目录下。

3.