数据集介绍

GEO数据库

image.png
1、选择GEO DataSets:输入自己感兴趣的关键词。
2、选择Homo sapiens(人类研究)。
3、点击词条查看详细信息。
注:对于感兴趣的GSE,也可从文章中直接获取,然后直接用GSE号进行搜索。

数据集信息

获取数据集编号和SRA数据库编号
image.png

下载数据相关信息

ENA数据库

使用BioProject编号在ENA数据库中下载数据。
image.png
image.png
image.png
image.png
文件下载好之后通过ftp传到服务器中。

数据下载内容

使用aspera软件下载数据,需要获取ftp地址、aspera下载地址、md5值等。
image.png

使用aspera软件下载

aspera软件常用参数

  1. -Q ## 启用-Q或-QQ传输策略,使用-l和-m来设定目标和最低传输速度。
  2. -T ## 取消加密传输。若不添加此参数,可能会下载不了。
  3. -i ## 输入私钥,安装后有在目录 ~/.aspera/connect/etc/下有几个私钥,使用服务器用asperaweb_id_dsa.openssh文件作为私钥。
  4. -l ## 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数,则一般可达到10m/s的速度
  5. -k ## 表示断点续传,通常设置为1即可
  6. --host ## ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为fasp.sra.ebi.ac.uk。
  7. --user ## 用户名,NCBI的为anonftp,EBI的为era-fasp。
  8. --mode ## 选择模式,上传为 send,下载为 recv。

单个样本下载

不常用。

  1. ## 激活小环境
  2. conda activate rna
  3. ## 下载单个文件
  4. # fastq格式 注意下面参数链接的文件要换成自己目录的
  5. # 首先确定自己的密钥在哪里
  6. find ~/ -name '*.openssh'
  7. # 定义变量,注意等号两边不能有空格
  8. key_ssh=/home/t_rna/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh
  9. fq_url=fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz
  10. # 下载
  11. ascp -k 1 -QT -l 300m -P33001 -i $key_ssh era-fasp@$fq_url ./

批量样本下载

常用。

  1. ## 批量下载
  2. # 先查看自己需要的信息在哪一列
  3. head -n 1 filereport_read_run_PRJNA* |tr '\t' '\n' |cat -n
  4. # 得到fq.url文件,如果行尾存在特殊字符,运行 sed -i "s/\s*$//g" fq.url 去掉行尾特殊字符
  5. cat filereport_read_run_PRJNA229998_tsv.txt |awk -F '\t' 'NR>1 {print $20}' |tr ';' '\n' |grep '_' >fq.url
  6. # 下载三个样本测试
  7. head -n 4 fq.url >temp.url
  8. # 命令
  9. key_ssh=/home/t_rna/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh
  10. cat temp.url | while read id
  11. do
  12. ascp -k 1 -QT -l 300m -P33001 -i $key_ssh era-fasp@${id} ./
  13. done

数据完整性检验

MD5值检验

MD5,即”Message-Digest Algorithm 5(信息-摘要算法)”,其主要通过采集文件的信息摘要,以此进行计算并加密。
通过MD5算法进行加密,文件就可以获得一个唯一的MD5值,这个值是独一无二的,就像我们的指纹一样,因此我们就可以通过文件的MD5值来确定文件是否正确

  1. ## 数据完整性检验(非常重要!!!)
  2. # 得到md5值,md5值与文件名之间为两个空格,检验格式要求
  3. cat filereport_read_run_PRJNA229998_tsv.txt|awk -F'\t' 'NR>1{print$8}' |tr ';' '\n' >md51
  4. cat filereport_read_run_PRJNA229998_tsv.txt|awk -F'\t' 'NR>1{print$8}' |tr ';' '\n' |awk -F'/' '{print$NF}' >md52
  5. # 将md51和md52合并在一起,中间为两个空格,md5格式要求
  6. paste -d' ' md51 md52 |grep '_' >md5.txt
  7. # md5值检验
  8. nohup md5sum -c md5.txt >check &

md5值检验OK。
image.png