01、python数据分析基础模块
numpy scipy pandas matplotlib
conda install XXX 或者 pip/pip3 install XXX
numpy提供常用的数值数组、矩阵等函数
numpy的优点:1、基于向量化的运算 2、进行数值运算时numpy数组比list效率高
scipy 是一种基于numpy的扩展 用来做高等数学、信号处理、优化、统计的扩展包
比如:线性代数 统计的 空间的数据结构
Pandas 是一种构建于Numpy的高级数据结构和精巧工具,快速简单的处理数据
数据结构:Series和DataFrame
print(df.head(2))
print(df.tail(1))
print(df.describe())
常用的高级数据分析库 nltk igraph scikit-learn
nltk 是做文本分析的 文本处理 natural language toolkit 自然语言处理工具包
igraph 社交网络分析
scikit-learn 机器学习模型的训练 算法的使用
安装:pip install -U nltk
引入:import nltk
下载语料库:nltk.download()
nltk 应用:文本提取 词汇切分 词频分析 词袋模型 情感分析
igraph 图计算和社交网络分析 http://igraph.org/python
pip install python-igraph
Scikit-learn是建立在Scipy之上的一个用于机器学习的Python模块
安装:pip install -U scikit-learn 或者 conda install scikit-learn