数据比对

测序数据为打断的mRNA片段逆转录得到的cDNA片段的集合,因此需要将这些片段与基因组的序列相匹配,这个过程称之为比对。

  • 常用的数据比对软件有Hisat2和Salmon
  • 数据比对需要根据软件要求建立基因索引
  • 索引相当于目录结构,减少了比对时间和内存(二进制文件,无法读取)。

    Hisat2

    常见参数

    1. -x ## 索引文件的前缀
    2. -1 ## 双端测序的第一个文件
    3. -2 ## 双端测序的第二个文件
    4. -U ## 单端测序数据
    5. --rna-strandness ## 特异性参数
    6. -p ## 线程数

    构建索引

    命令如下:
    1. hisat-build genome.fa genome
    2. ## hisat-build 为命令
    3. ## genome.fa 为数据库下载的参考基因组,解压后的文件
    4. ## genome 代表索引建成后的前缀,对应关系如下图
    image.png
    image.png

    比对步骤

    新建文件夹

    定义文件夹

    单样本比对

    比对结果

    Subjunc