1.数据下载

(1)下载aspera并配置:

  1. wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
  2. tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
  3. bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
  4. #手动安装需要自行添加环境变量
  5. echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
  6. acsp --help

https://www.jianshu.com/p/112412b8883c

(2)示例数据下载

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778
全国巡讲陪读档案--Day3 - 图1
全国巡讲陪读档案--Day3 - 图2
全国巡讲陪读档案--Day3 - 图3

这是它的原始数据列表,文件内容如下:

SRR1039509
SRR1039508
SRR1039511
SRR1039510
SRR1039512
SRR1039513
SRR1039515
SRR1039514
SRR1039516
SRR1039517
SRR1039519
SRR1039518
SRR1039520
SRR1039521
SRR1039523
SRR1039522

可以将该文件下载下来,通过ftp上传到服务器。

cd ~
使用重定向将文件存到服务器
cat >list.txt

#粘贴上面的Assession list内容,换行,按ctrl+c

⚠️注意:必须换行后再ctrl+c,否则最后一行会作废

这里面就是要下载的文件的id,要对每个文件做的事情是:
下载,并将它转换为fastq格式。
先拿一个数据试一下是否可以:

prefetch SRR1039510 -O ~
fastq-dump --gzip --split-3 -O ~ SRR1039510.sra

有这么多需要逐一操作太过复杂,所以使用while循环下载sra并转换为fastq。

cat SRR_Acc_List.txt | while read id; do (prefetch ${id} -O ~);done
cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O ~/ ${id}.sra);done

2.fastqc

示例数据在 /teach/project/1.rna/3.rawfq 25000reads/

fastqc -t 2 -o ~/ /teach/project/1.rna/3.raw_fq_ 25000reads/*.rawfq.gz
multiqc ./*zip

输出到了主目录下。

3.