(本来第二章是SQL 直接pass)

常见分析工具简介

Excel

Excel作为入门级的工具,是最基础也是最主要的数据分析工具。

Python

常用Python库

  • NumPy提供了矩阵运算的功能和其他数学韩束,是其他的数据处理库的基础
  • SciPy是一个开源的Python算法库和数学工具包
  • Matplotlib是一个Python 2D绘图库
  • Pandas基于NumPy,用于数据分析的Python库
  • Scikits-learn:是用于处理复杂数据的最优秀的机器学习库之一

R

R是用于统计学计算和绘图的语言,常见算法库

  • 聚类
    • 基于划分的方法:kmeans、pam、pamk、clara
    • 基于层次的方法:hclust、pvclust、agnes、diana
    • 基于模型的方法:mclust
    • 基于密度的方法:dbscan
  • 分类
    • 决策树:rpart、ctre
    • 随机森林:cforest、randomForest
    • 回归:Logistic回归、Poisson回归、glm、predict、residuals等
  • 统计分析
    • 方差分析:aov、anova
    • 密度分析:density
    • 假设检验:t.test,prop.test,anova、aov
    • 线性混合模型:lme
    • 主成分分析和银子分析:princomp等、

SPSS

类似Excel的方式输入和管理数据

阿里云大数据分析平台

  • 数据工场Dataworks
  • 机器学习平台 PAI
  • 大数据计算服务 MaxCompute
  • 数据分析与展现 QuickBI

(MaxCompute和Dataworks内容默默水过)