本文由 简悦 SimpRead 转码, 原文地址 zhuanlan.zhihu.com

    作为 R 语言爱好者,常年跟踪 R 最新技术的学习者,我来推荐几个最新的综合包吧,希望大家广泛推广和使用,以改观目前普遍对 R 语言的各种 误解的过时的 印象。

    1. R 入门及数据操作包:tidyverse

    R 语言早已经不是只有 ggplot2!
    有 5 年了吧

    曾经的 R 最被广为传诵的 “卖点” 是 Hadley 大神的 ggplot2 包,这个“” 在 2016 年以来,已被 Hadley 大神 “连成线、张成面、形成体(系)”,这就是 tidyverse 包,集 “数据导入—数据清洗数据操作数据可视化数据建模可重现与交互报告” 整个数据科学流程于一身,而且是以 “现代的”、”优雅的” 方式,以管道式、泛函式编程技术实现

    综合包推荐 - 图1综合包推荐 - 图2

    不夸张地说,操作数据比 pandas 好用、易用数倍!再加上可视化本来就是 R 所擅长,可以说 R 在数据科学领域强于 python。

    这种整洁、优雅的 “tidy - 流”,又带动了 R 语言在很多研究领域涌现出了一系列 “tidy - 风格” 的包。

    所以,近几年开始入门 R 语言的话,不以 tidyverse 作为入门,就是与时代脱节,就是在浪费时间。

    :看重速度,结合一下 data.table 包。

    2. 机器学习包:tidymodels、mlr3、h2o

    R 语言早已经不是” 各个机器学习算法单打独斗,不统一不规范 “!
    有 10 年了吧

    可以说,R 在机器学习领域正在从技术上迎头赶上 python,当然用户上天壤之别。

    (1)tidymodels(前身 caret)

    它就是 “tidy - 风格” 进入了机器学习领域。

    待续。。。。

    (2)mlr3verse(前身 mlr)

    真正最新理念、最新技术、最新一代的机器学习包,比 sklearn 还先进。

    基于 R6 类面向对象,data.table 神速数据底层,开创性的”Graph - 流 “模式(图 / 网络流,区别于通常的线性流)。

    综合包推荐 - 图3综合包推荐 - 图4

    待续。。。。

    (3)h2o

    可扩展的开源机器学习平台 “H2O” 的 R 接口,基于 Java 底层,可做深度学习。

    待续。。。。

    3. 时间序列包:fpp3, timetk, modeltime

    fpp3 包就是 “tidy - 风格” 进入了时间序列领域,本来是配套这本书《Forecasting Principles and Practice》的,现在已形成系列,将来可能会整合为 tidyverts 包。

    综合包推荐 - 图5综合包推荐 - 图6

    待续。。。。

    4. 金融分析:tidyquant

    它就是 “tidy - 风格” 进入了金融领域,特别需要说的一点是,它专门针对 Excel 各种函数进行了相应的 R 实现。

    待续。。。。

    5. 网络建模:Statnet

    对流行病 DCM 建模、网络建模有兴趣的,可以了解一下。

    待续。。。。

    6. 空间数据分析:sf 等

    待续。。。。

    7. 大数据:vroom, dtplyr,DBI,modeldb, sparklyr 等

    8. 文本挖掘:tidytext,quanteda 等

    ——————————

    欢迎在评论中提醒我,补充各个研究领域的最新主流、综合的 R 包。

    另外,有感于国内 R 语言这么陈旧、落后、被埋没的现状,我将尽快推出一本基于 tidyverse 的,最新技术的,最适合入门的 R 语言编程 书(免费电子书),以推广最新 R 技术,敬请期待!

    然后,计划还有下一本,基于 mlr3 的机器学习。

    写下你的评论…

    期待

    期待基于 mlr3 的机器学习教程

    tidy 风格只有那么香了,真的很接近人的语言,就是说人话。人的时间才是最宝贵的

    这个确实挺好,R 在数据处理和机器学习领域的包确实应该整合,方便集中精力干大事,哈哈哈

    等待

    卧槽要写书的么!期待!

    哦哦哦?看来该学学 mlr3 和 tensorflow2 了

    期待期待

    大概什么时候可以写好呢?[好奇] 期待!