1.数据下载
(1)下载aspera并配置:
wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
#手动安装需要自行添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
acsp --help
https://www.jianshu.com/p/112412b8883c
(2)示例数据下载
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778
这是它的原始数据列表,文件内容如下:
SRR1039509
SRR1039508
SRR1039511
SRR1039510
SRR1039512
SRR1039513
SRR1039515
SRR1039514
SRR1039516
SRR1039517
SRR1039519
SRR1039518
SRR1039520
SRR1039521
SRR1039523
SRR1039522
可以将该文件下载下来,通过ftp上传到服务器。
cd ~
使用重定向将文件存到服务器
cat >list.txt
#粘贴上面的Assession list内容,换行,按ctrl+c
⚠️注意:必须换行后再ctrl+c,否则最后一行会作废
这里面就是要下载的文件的id,要对每个文件做的事情是:
下载,并将它转换为fastq格式。
先拿一个数据试一下是否可以:
prefetch SRR1039510 -O ~
fastq-dump --gzip --split-3 -O ~ SRR1039510.sra
有这么多需要逐一操作太过复杂,所以使用while循环下载sra并转换为fastq。
cat SRR_Acc_List.txt | while read id; do (prefetch ${id} -O ~);done
cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O ~/ ${id}.sra);done
2.fastqc
示例数据在 /teach/project/1.rna/3.rawfq 25000reads/
fastqc -t 2 -o ~/ /teach/project/1.rna/3.raw_fq_ 25000reads/*.rawfq.gz
multiqc ./*zip
输出到了主目录下。