获取更多R语言知识,请关注公众号:医学和生信笔记

医学和生信笔记 公众号主要分享:1.医学小知识、肛肠科小知识;2.R语言和Python相关的数据分析、可视化、机器学习等;3.生物信息学学习资料和自己的学习笔记!

获取数据

可以直接下载,也可以是自己的测序数据
如果是下载,可以通过 Aspera 软件高速下载

使用conda安装Aspera

  1. 首先安装并配置conda,见”conda” 使用
    2. 使用mamba安装aspera:mamba install -y -c hcc aspera-cli
    tips:记得安装在base环境中,这样其他环境也可以调用
    3. 使用aspera下载数据即可

    手动安装Aspera

    下载安装包,解压,然后安装,这个软件是免费的,如果找到了付费的界面说明没找对

    质控

    首先还是配置conda环境,安装各种生信常用软件,可以一次安装多个软件: ```bash conda install -y sra-tools conda install -y sra-tools fastqc trim-galore hisat2 subread multiqc samtools salmon fastp STAR

运行以下语句,不出现报错表示安装成功

prefetch —help fastq-dump —help which prefetch fastqc —help trim_galore —help hisat2 -h featureCounts multiqc —help samtools which samtools salmon -h fastp —help ```
使用fastqc进行质控,查看每一个样本的测序质量
使用multiqc合并结果,方便查看

过滤

使用trim_galore或fastp进行过滤
trim_galore
• 如果加了参数—fastqc,那么结果会出现很多fastqc报告,可以使用multiqc查看一下过滤后的质量

比对

下载 index或者自己构建
• hisat2的index下载地址:https://daehwankimlab.github.io/hisat2/,这个索引是根据release84版本的,最好自己构建
下载参考基因组和对应版本的注释文件,可以参考这里:”参考基因组和注释文件下载”
• esnembl下载,注意版本号releasexxx,要和注释文件版本一致,http://www.ensembl.org/Homo_sapiens/Info/Index
6.png
ftp://ftp.ensembl.org/pub/release-102/fasta/homo_sapiens/cdna,这个是DNA的,下载cdna.all.fa.gz。
ftp://ftp.ensembl.org/pub/release-102/fasta/homo_sapiens/dna,这个是转录组的,下载
primary_assembly.fa.gz
ftp://ftp.ensembl.org/pub/release-102/gtf/homo_sapiens/,在这里下载注释文件,下载GRCh38.102.gtf.gz

hisat2
subjunc

定量

featureCounts

获取更多R语言知识,请关注公众号:医学和生信笔记

医学和生信笔记 公众号主要分享:1.医学小知识、肛肠科小知识;2.R语言和Python相关的数据分析、可视化、机器学习等;3.生物信息学学习资料和自己的学习笔记!