准备工作

Git

Git是一款免费、开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。 Git是用于Linux内核开发的版本控制工具。可以在Windows电脑上利用Linux命令处理文件。

Rstudio中配置Git

工作台中存在Teminal栏,说明Git已经配置完成。
image.png
若无Terminal栏,则按以下步骤配置
image.png
image.png
image.pngimage.png

Rmd

Markdown是一种简单的文本文件格式, 通常保存为.md扩展名。 Mardown中文内容应该使用UTF-8编码。 Markdown文件里面有一些简单的格式标注方法, 比如两个星号之间的文字会转化为粗体
image.png

插入代码块

  1. ## 两种方法

ctrl+alt+i

  1. <a name="x8pCr"></a>
  2. ### 运行代码
  3. ![image.png](https://cdn.nlark.com/yuque/0/2021/png/22031586/1629179991275-387c10d2-0ea1-4e0b-845c-97ed5625de78.png#clientId=ub4c8f4b5-4cda-4&from=paste&height=63&id=uffddd421&margin=%5Bobject%20Object%5D&name=image.png&originHeight=125&originWidth=1127&originalType=binary&ratio=1&size=21911&status=done&style=none&taskId=u602cc06f-66e2-465d-be94-6500e9e88a6&width=563.5)
  4. <a name="vJcDB"></a>
  5. ### markdown基本语法
  6. ```r
  7. # ## 级别标题
  8. ``` ## 行内代码
  9. ** ** ## 中间文本加粗
  10. > ## 引用

渲染导出文件

image.png
导出会生成一个网页。
image.png

TCGA数据库

TCGA全称The Cancer Genome Atlas。是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。

目前共收录了33种癌症类型,超过了2个PB的数据,该数据是免费公开的,极大的帮助癌症研究者提高对癌症的预防,诊断和治疗。该数据库的网址如下
https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

数据类型包括以下几种

  1. RNA sequencing
  2. MicroRNA sequencing
  3. DNA sequencing
  4. SNP-based platforms
  5. Array-based DNA methylation sequencing
  6. Reverse-phase array(RPPA)

涵盖了基因组,转录组,表观遗传,蛋白组等各个组学数据,提供了一个全方位,多维度的数据。 官方提供了对应的下载工具Genomic Data Commons Datga Portal, 简称GDC, 网址如下
https://portal.gdc.cancer.gov/

TCGA数据分流程

image.png
image.png