1. 将转录组数据比对到基因组上;
  2. 利用转录组拼接软件可以得到新的转录本,用于之后的 lncRNA 的甄别。

鉴定 lncRNA 最大的难点是确定转录组的非编码性

质控

  1. sample=SRR16841689
  2. fastp \
  3. -i ${sample}_1.fastq \
  4. -I ${sample}_2.fastq \
  5. -o ${sample}.fp.R1.fastq \
  6. -O ${sample}.fp.R2.fastq \
  7. -h ${sample}.html \
  8. -j ${sample}.json

比对

  1. ref=genome.fa
  2. gtf=genome.gtf
  3. # 为参考基因组构建 index
  4. hisat2-build \
  5. ${ref} \
  6. genome \
  7. -p 20 \
  8. &> hisat2-build.log
  9. hisat2 \
  10. -x genome \
  11. -1 ${sample}.fp.R1.fastq \
  12. -2 ${sample}.fp.R2.fastq \
  13. -p 20 \
  14. --new-summary \
  15. --summary-file ${sample}.hisat2.summary \
  16. --rna-strandness RF \
  17. | samtools sort \
  18. -o ${i}.hisat2.sorted.bam \
  19. - \
  20. 1> ${i}.hisat2.log \
  21. 2> ${i}.hisat2.err
  22. samtools index ${i}.hisat2.sorted.bam

stringTie 转录本重构

  1. # 转录本重构
  2. stringtie \
  3. ${i}.hisat2.sorted.bam \
  4. --rf \
  5. -G ${gtf} \
  6. -o ${sample}.gtf \
  7. -p 10 \
  8. &> ${sample}.stringtie.log
  9. stringtie --merge -o merged.gtf -G ${gtf} *gtf
  10. # 过滤
  11. FEELnc_filter.pl \
  12. -i merged.gtf \
  13. -a ${gtf} \
  14. --monoex=-1 \
  15. -s 200 \
  16. -f 0 \
  17. -p 40 \
  18. 1> candidate_lncRNA.gtf \
  19. 2> FEELnc_filter.log
  20. # 提取转录本序列
  21. gffread \
  22. ${gtf} \
  23. -g ${genome} \
  24. -w candidate_lncRNA.fa
  25. 提取 ID

过滤

根据长度
过滤掉mRNA

编码能力预测

  1. FEELnc_codpot.pl \
  2. -i candidate_lncRNA.gtf \
  3. -a ${gtf} \
  4. -l
  5. -g
  1. CPC2.py \
  2. -i candidate_lncRNA.gtf \
  3. -o cpc2output

参考