一、R语言数据类型分类与区别(学会区分⭐️⭐️)

R语言入门-2——数据框、矩阵和列表 - 图1

1、向量(vector)——最基本数据类型

详见前一章

2、矩阵(matrice)——具有维度属性的向量,矩阵都是二维的,矩阵中也仅能包含一种数据类型

3、数组(array)——与矩阵类似,维度可大于二

4、列表(list)——可包含多种不同类型对象的向量,是一些对象的有序集合。

5、数据框(Data Frames)——是一种特殊的列表,其中所用元素长度都相等,列表中的每个元素都可以看作一列,每个元素的长度可以看作行数,每列只允许一种数据类型。(包容性更强)

二、数据框操作(使用频繁⭐️⭐️⭐️⭐️⭐️)

1、数据框来源

(1)在R中新建

(2)由已有数据转换或处理得到

(3)从文件中读取(如excel表)

(4)内置数据集(如iris)

2、新建与读取数据框(data.frame构建,把不同向量加进来)

  1. #函数创建
  2. > df <- data.frame(gene = paste0("gene",1:4),
  3. + change = rep(c("up","down"),each = 2),
  4. + score = c(5,3,-2,-4))
  5. > df
  6. gene change score
  7. 1 gene1 up 5
  8. 2 gene2 up 3
  9. 3 gene3 down -2
  10. 4 gene4 down -4
  11. #文件读取
  12. > df2 <- read.csv("gene.csv")
  13. > df2

3、判断数据框属性(维度、行名列名)

  1. dim(数据框名)
  2. nrow(df)#行数
  3. ncol(df)#列数
  4. rownames(df)#行名
  5. colnames(df)#列名

4、数据框取子集(中括号中“,”代表维度分割[行,列],若空缺代表全选,能使用函数表示就不手动输入)

  1. > df$score # $符号选取列名操作
  2. [1] 5 3 -2 -4
  3. > mean(df$score) #对列(数值型)进行运算操作
  4. [1] 0.5
  5. > ## 按坐标(行,列)
  6. > df[2,2]
  7. [1] "up"
  8. > df[2,]#数据类型data.frmae
  9. gene change score
  10. 2 gene2 up 3
  11. > df[,2]#不写表示全选
  12. [1] "up" "up" "down" "down"
  13. > df[c(1,3),1:2]
  14. gene change
  15. 1 gene1 up
  16. 3 gene3 down
  17. > df[,ncol(df)]#能用函数的不手写
  18. [1] 5 3 -2 -4
  19. > df[,-ncol(df)]
  20. gene change
  21. 1 gene1 up
  22. 2 gene2 up
  23. 3 gene3 down
  24. 4 gene4 down
  25. > ## 按名字,等同于$列名
  26. > df[,"gene"]
  27. [1] "gene1" "gene2" "gene3" "gene4"
  28. > df[,c('gene','change')]#(同时提取多列)
  29. gene change
  30. 1 gene1 up
  31. 2 gene2 up
  32. 3 gene3 down
  33. 4 gene4 down
  34. > ## 按条件(逻辑值)
  35. > df[df$score>0,]
  36. gene change score
  37. 1 gene1 up 5
  38. 2 gene2 up 3
  39. > #筛选score>0的gene
  40. > df[df$score>0,1]
  41. [1] "gene1" "gene2"

5、数据框修改(修改要赋值,否则白忙)⭐️⭐️注意[]中的“,”,否则可能报错(见错题!)

  1. > #改一个格
  2. > df[3,3]<- 5
  3. > df
  4. gene change score
  5. 1 gene1 up 5
  6. 2 gene2 up 3
  7. 3 gene3 down 5
  8. 4 gene4 down -4
  9. > #改一整列
  10. > df$score<-c(12,23,50,2)
  11. > df
  12. gene change score
  13. 1 gene1 up 12
  14. 2 gene2 up 23
  15. 3 gene3 down 50
  16. 4 gene4 down 2
  17. > #新增一列名为p.value
  18. > df$p.value <-c(0.01,0.02,0.07,0.05)
  19. > df
  20. gene change score p.value
  21. 1 gene1 up 12 0.01
  22. 2 gene2 up 23 0.02
  23. 3 gene3 down 50 0.07
  24. 4 gene4 down 2 0.05
  25. > #改行名和列名
  26. > rownames(df) <- c("r1","r2","r3","r4")
  27. > colnames(df) <- c("a","b","d")
  28. > #只修改某一列的名,注意括号顺序
  29. > colnames(df)[2]="CHANGE"

6、数据框高端操作⭐️⭐️⭐️⭐️⭐️——merge函数

  1. #数据框行数较多时,可以选择截取前/后任意行查看
  2. head(iris)
  3. head(iris,3)#查看前3
  4. tail(iris)
  5. #行列数都多的数据框可取前几行前几列查看
  6. iris[1:3,1:3]
  7. #查看每一列的数据类型和具体内容
  8. str(数据框名)
  9. #去除含有缺失值的行
  10. na.omit(数据框名)
  11. #表格连接!!!(重点)———————merge(数据框1,数据框2,by=“连接条件(共同列名)”)
  12. > test1 <- data.frame(name = c('jimmy','nicker','Damon','Sophie'),
  13. + blood_type = c("A","B","O","AB"))
  14. > test1
  15. name blood_type
  16. 1 jimmy A
  17. 2 nicker B
  18. 3 Damon O
  19. 4 Sophie AB
  20. > test2 <- data.frame(name = c('Damon','jimmy','nicker','tony'),
  21. + group = c("group1","group1","group2","group2"),
  22. + vision = c(4.2,4.3,4.9,4.5))
  23. > test2
  24. name group vision
  25. 1 Damon group1 4.2
  26. 2 jimmy group1 4.3
  27. 3 nicker group2 4.9
  28. 4 tony group2 4.5
  29. > test3 <- data.frame(NAME = c('Damon','jimmy','nicker','tony'),
  30. + weight = c(140,145,110,138))
  31. > merge(test1,test2,by="name")
  32. name blood_type group vision
  33. 1 Damon O group1 4.2
  34. 2 jimmy A group1 4.3
  35. 3 nicker B group2 4.9
  36. > merge(test1,test3,by.x = "name",by.y = "NAME")#R语言区大小写!!!
  37. name blood_type weight
  38. 1 Damon O 140
  39. 2 jimmy A 145
  40. 3 nicker B 110

merge函数解释:merge is a generic function whose principal method is for data frames: the default method coerces its arguments to data frames and calls the “data.frame” method. By default the data frames are merged on the columns with names they both have, but separate specifications of the columns can be given by by.x and by.y. The rows in the two data frames that match on the specified columns are extracted, and joined together.

三、矩阵操作——matrix函数(数据从上向下排列,数据长度应为矩阵行/列数整数倍,否则出现错误),矩阵不支持$取子集,矩阵可用来绘制热图

  1. #矩阵创建
  2. > m <- matrix(1:9, nrow = 3)#matrix可以自定义ncolnrow
  3. > m
  4. [,1] [,2] [,3]
  5. [1,] 1 4 7
  6. [2,] 2 5 8
  7. [3,] 3 6 9
  8. > m <- matrix(1:4,ncol=6 );m
  9. Warning message:
  10. In matrix(1:4, ncol = 6) : 数据长度[4]不是矩阵列数[6]的整倍数 #warning不代表没错
  11. [,1] [,2] [,3] [,4] [,5] [,6]
  12. [1,] 1 2 3 4 1 2
  13. #更改列/行名——向量赋值
  14. rownames(m) <- c("gene1","gene2","gene3","gene4")
  15. colnames(m) <- c("a","b","c")
  16. #矩阵取子集不支持$,只能[]
  17. m[2:3,1:2]
  18. [,1] [,2]
  19. [1,] 2 5
  20. [2,] 3 6
  21. #转置
  22. > t(m)
  23. [,1] [,2] [,3]
  24. [1,] 1 2 3
  25. [2,] 4 5 6
  26. [3,] 7 8 9
  27. #转换为数据框——注意区别!
  28. > m <- matrix(1:9, nrow = 3);m;dim(m)
  29. [,1] [,2] [,3]
  30. [1,] 1 4 7
  31. [2,] 2 5 8
  32. [3,] 3 6 9
  33. [1] 3 3
  34. > m1 <- as.data.frame(m);m1;dim(m1)
  35. V1 V2 V3
  36. 1 1 4 7
  37. 2 2 5 8
  38. 3 3 6 9
  39. [1] 3 3
  40. #绘制热图
  41. pheatmap::pheatmap(m)
  42. pheatmap::pheatmap(m,cluster_cols = F,cluster_rows = F)——关闭聚类

matrix函数解释:If one of nrow or ncol is not given, an attempt is made to infer it from the length of data and the other parameter. If neither is given, a one-column matrix is returned.

If there are too few elements in data to fill the matrix, then the elements in data are recycled(循环补齐). If data has length zero, NA of an appropriate type is used for atomic vectors (0 for raw vectors) and NULL for lists.

四、列表操作——list函数(大杂烩,把不同类型数据加进来),列表取子集记得[[]]⭐️

  1. > l <- list(m=matrix(1:9, nrow = 3),
  2. + df=data.frame(gene = paste0("gene",1:3),
  3. + sam = paste0("sample",1:3),
  4. + exp = c(32,34,45)),
  5. + x=c(1,3,5))
  6. > l
  7. $m
  8. [,1] [,2] [,3]
  9. [1,] 1 4 7
  10. [2,] 2 5 8
  11. [3,] 3 6 9
  12. $df
  13. gene sam exp
  14. 1 gene1 sample1 32
  15. 2 gene2 sample2 34
  16. 3 gene3 sample3 45
  17. $x
  18. [1] 1 3 5
  19. #取子集
  20. l[[2]]#列表取数据框
  21. l$df
  22. #names(m)判断列表名

五、错题重现⭐️⭐️⭐️

  1. #提取test中,最后一列值为a或c的行,组成一个新的数据框,赋值给test2。!!!(使用%in%逻辑判断,注意[]中",")
  2. test2=test[test$Species %in% c("a","c"),]
  3. #统计iris最后一列有哪几个取值,每个取值重复了多少次
  4. table(iris[,ncol(iris)]) #table函数
  5. #提取iris的前10行,前4列,并转换为矩阵,赋值给a
  6. a=as.matrix(iris[1:10,1:4])
  7. #将a的行名改为flower1,flower2...flower10。
  8. rownames(a)=paste0("flower",1:nrow(a)) #paste函数创建连接
  9. #将a的第4到7行删除(提示:删除也是一种修改)
  10. a1=a[-(4:7),] #反选4:7行
  11. #将a的第1和第2行删除
  12. a1=a[-c(1,3),]