获取更多R语言知识,请关注公众号:医学和生信笔记

医学和生信笔记 公众号主要分享:1.医学小知识、肛肠科小知识;2.R语言和Python相关的数据分析、可视化、机器学习等;3.生物信息学学习资料和自己的学习笔记!

一共有3个地方可以下载参考基因组和注释文件

  • Ensembl
  • UCSC
  • NCBI

参考基因组和注释文件有不同的版本,因为人类的各种技术一直在发展,对基因的认识也不断深入,所以会有各种更新,于是就有了不同版本,3个地方的参考基因组和对应版本简单如下所示:

Ensembl UCSC NCBI
release_52 hg18 GRCh36
release_59…75 hg19 GRCh37
release_76…102 hg38 GRCh38

我推荐使用Ensembl下载,因为比较简单

Ensembl下载参考基因组和注释文件

Ensembl下载位置非常好找,就在首页,右下方找到如下界面:
1.png
第2个是参考基因组,第3个是参考基因组的注释文件,这2个都有不同的版本号,下载的时候记得选择一样的即可。

下载参考基因组

点击第2个会进入如下界面:
2.png
这里面有cdnadna,cdna是DNA的参考基因组,dna是转录组的参考基因组,关于这2者的区别,需要继续学习。这2种以后都会用到,所以推荐都下载,但是做RNA-Seq需要的是cdna里面的,也就是DNA的参考基因组
点击cdna,进入如下界面(随着时间推移可能会变化):
3.png
第3个就是我们要下载的,如果想知道每一个有什么不一样,可以下载README学习一下。
点击dna,进入如下界面:
4.png
有非常多的类型,如果想要了解每一种类型各代表什么意思,有什么不同,请下载README研究。
这里我们直接下载带dna.primary_assembly.fa.gz后缀的文件,大概840 M。

下载注释文件

点击Download GTF,会进入如下界面:
5.png
我们直接下载102.gtf.gz,这个文件,这就是我们要的和参考基因组同一个版本的注释文件。
OK,以上我们就从Ensembl下载了最新的参考基因组和注释文件。但是最新的不是最好的,一定要下载最合适自己的。

获取更多R语言知识,请关注公众号:医学和生信笔记

医学和生信笔记 公众号主要分享:1.医学小知识、肛肠科小知识;2.R语言和Python相关的数据分析、可视化、机器学习等;3.生物信息学学习资料和自己的学习笔记!