全国巡讲陪读档案--Day3 - 《linux》

1.数据下载
- (1)下载aspera并配置：
- (2)示例数据下载
2.fastqc
3.

1.数据下载

(1)下载aspera并配置：

wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
#手动安装需要自行添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
acsp --help

https://www.jianshu.com/p/112412b8883c

(2)示例数据下载

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778
全国巡讲陪读档案--Day3 - 图1
全国巡讲陪读档案--Day3 - 图2
全国巡讲陪读档案--Day3 - 图3

这是它的原始数据列表，文件内容如下：

SRR1039509
SRR1039508
SRR1039511
SRR1039510
SRR1039512
SRR1039513
SRR1039515
SRR1039514
SRR1039516
SRR1039517
SRR1039519
SRR1039518
SRR1039520
SRR1039521
SRR1039523
SRR1039522

可以将该文件下载下来，通过ftp上传到服务器。

cd ~
使用重定向将文件存到服务器
cat >list.txt

#粘贴上面的Assession list内容，换行，按ctrl+c

⚠️注意：必须换行后再ctrl+c，否则最后一行会作废

这里面就是要下载的文件的id，要对每个文件做的事情是：
下载，并将它转换为fastq格式。
先拿一个数据试一下是否可以：

prefetch SRR1039510 -O ~
fastq-dump --gzip --split-3 -O ~ SRR1039510.sra

有这么多需要逐一操作太过复杂，所以使用while循环下载sra并转换为fastq。

cat SRR_Acc_List.txt | while read id; do (prefetch ${id} -O ~);done
cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O ~/ ${id}.sra);done

2.fastqc

示例数据在 /teach/project/1.rna/3.rawfq 25000reads/

fastqc -t 2 -o ~/ /teach/project/1.rna/3.raw_fq_ 25000reads/*.rawfq.gz
multiqc ./*zip

输出到了主目录下。