肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件。
TCGA中数据类型主要有以下几种
1. mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量
2. microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量
3. Clinical:病人的一般情况、诊治情况、生存情况、肿瘤分期等随访信息
4. Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值
5. Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化
6. Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量
7. Methylation:甲基化芯片测得的DNA甲基化数据
TCGA的样本命名
1. Project: 所有TCGA样本名均以这个开头
2. TSS: Tissue source site,组织来源编码,详见组织来源编码
3. Participant:参与者编号
4. Sample:其中编号0109表示肿瘤,1019表示正常对照,最常见的是01和11
5. Vial:在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; B表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用B的样本数据
6. Portion:同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用
7. Analyte:分析的分子类型,对应关系如下所示
8. Plate:在一系列96孔板中的顺序,值大表示制板越晚
9. Center:测序或鉴定中心编码
TCGA数据下载方式TCGA下载方式有很多种,主要包括
1. R语言下载
2. 官网下载
3. 在线数据库下载
4. 小工具下载
以后我们会逐个介绍
TCGA在线分析数据库TCGA在线分析数据库有已经很多,以后我们会选择既重要又好用的工具来学习
下回见。