数据比对
测序数据为打断的mRNA片段逆转录得到的cDNA片段的集合,因此需要将这些片段与基因组的序列相匹配,这个过程称之为比对。
- 常用的数据比对软件有Hisat2和Salmon。
- 数据比对需要根据软件要求建立基因索引。
- 索引相当于目录结构,减少了比对时间和内存(二进制文件,无法读取)。
Hisat2
常见参数
-x ## 索引文件的前缀
-1 ## 双端测序的第一个文件
-2 ## 双端测序的第二个文件
-U ## 单端测序数据
--rna-strandness ## 特异性参数
-p ## 线程数
构建索引
命令如下:hisat-build genome.fa genome
## hisat-build 为命令
## genome.fa 为数据库下载的参考基因组,解压后的文件
## genome 代表索引建成后的前缀,对应关系如下图
比对步骤
新建文件夹
定义文件夹
单样本比对
比对结果
Subjunc