获取更多R语言知识,请关注公众号:医学和生信笔记
医学和生信笔记 公众号主要分享:1.医学小知识、肛肠科小知识;2.R语言和Python相关的数据分析、可视化、机器学习等;3.生物信息学学习资料和自己的学习笔记!
获取数据
可以直接下载,也可以是自己的测序数据
如果是下载,可以通过 Aspera 软件高速下载
使用conda安装Aspera
- 首先安装并配置conda,见”conda” 使用
2. 使用mamba安装aspera:mamba install -y -c hcc aspera-cli
tips:记得安装在base环境中,这样其他环境也可以调用
3. 使用aspera下载数据即可手动安装Aspera
下载安装包,解压,然后安装,这个软件是免费的,如果找到了付费的界面说明没找对质控
首先还是配置conda环境,安装各种生信常用软件,可以一次安装多个软件: ```bash conda install -y sra-tools conda install -y sra-tools fastqc trim-galore hisat2 subread multiqc samtools salmon fastp STAR
运行以下语句,不出现报错表示安装成功
prefetch —help
fastq-dump —help
which prefetch
fastqc —help
trim_galore —help
hisat2 -h
featureCounts
multiqc —help
samtools
which samtools
salmon -h
fastp —help
```
使用fastqc进行质控,查看每一个样本的测序质量
使用multiqc合并结果,方便查看
过滤
使用trim_galore或fastp进行过滤
trim_galore
• 如果加了参数—fastqc,那么结果会出现很多fastqc报告,可以使用multiqc查看一下过滤后的质量
比对
下载 index或者自己构建
• hisat2的index下载地址:https://daehwankimlab.github.io/hisat2/,这个索引是根据release84版本的,最好自己构建
下载参考基因组和对应版本的注释文件,可以参考这里:”参考基因组和注释文件下载”
• esnembl下载,注意版本号releasexxx,要和注释文件版本一致,http://www.ensembl.org/Homo_sapiens/Info/Index
ftp://ftp.ensembl.org/pub/release-102/fasta/homo_sapiens/cdna,这个是DNA的,下载cdna.all.fa.gz。
ftp://ftp.ensembl.org/pub/release-102/fasta/homo_sapiens/dna,这个是转录组的,下载primary_assembly.fa.gz
ftp://ftp.ensembl.org/pub/release-102/gtf/homo_sapiens/,在这里下载注释文件,下载GRCh38.102.gtf.gz
定量
featureCounts
获取更多R语言知识,请关注公众号:医学和生信笔记
医学和生信笔记 公众号主要分享:1.医学小知识、肛肠科小知识;2.R语言和Python相关的数据分析、可视化、机器学习等;3.生物信息学学习资料和自己的学习笔记!