大纲
1、Python 基础学习 - 解释器:IDE。Anaconda - 列表/元组/字典/类/文件 - python安装与环境配置 - python基本数据类型:list, dict, tuple, set - Python 文件操作:txt, excel等 - Python 的标准库 - Python 高级用法:切片、迭代、map、filter、 reduce |
代码和实战案例: |
---|---|
2、python 网络爬虫 - 字符串重要方法应用 - 中英文分词,拼音处理 - 网页文本提取与图片下载 - 简单反爬机制对抗 |
代码和实战案例: |
3、Python 数据分析 - Numpy/Scipy/Pandas/Matplotlib/Seaborn 库 - Numpy 基础属性与数组创建 - Numpy 索引 - Numpy 数学运算与常用分布 - Pandas 数据处理与分析 - Pandas 文件读写和个性化控制 - Pandas 的 concat 与 merge - Matplotlib 基本图结构介绍 - 基于 Matplotlib 绘制散点图、柱状图、等高线 图、3D 图等 - 多图合并与图片文件存取 - scikit-learn 的介绍和典型使用 - XGBoost、LightGBM - 多元高斯分布 - 典型图像处理 - 多种数学曲线 - 多项式拟合 |
代码和实战案例: |
4、回归分析 - 线性回归 - Logistic/Softmax 回归 - 广义线性回归 - L1/L2 正则化 - Ridge 与 LASSO - Elastic Net 梯度下降算法:BGD 与 SGD 特征选择与过拟合 - Softmax 回归的概念源头 - 最大熵模型 - K-L 散度 |
代码和实战案例: |
5、决策树和随机森林 - 熵、、联合熵、条件熵、KL 散度、互信息 - 最大似然估计与最大熵模型 - ID3、C4.5、CART 详解 - 决策树的正则化 - 预剪枝和后剪枝 - Bagging Boosting AdaBoost GBDT XGBoost - 随机森林 - 不平衡数据集的处理 - 利用随机森林做特征选择 - 使用随机森林计算样本相似度 - 异常值检测 |
|
6、SVM - 线性可分支持向量机 - 软间隔 - 损失函数的理解 - 核函数的原理和选择 - SMO 算法 - 支持向量回归 SVR - 多分类 SVM |
|
7、聚类 - 各种相似度度量及其相互关系 - Jaccard 相似度和准确率、召回率 - Pearson 相关系数与余弦相似度 - K-means 与 K-Medoids 及变种 - AP 算法(Sci07)/LPA 算法及其应用 - 密度聚类 DBSCAN/DensityPeak(Sci14) - 谱聚类 SC - 聚类评价和结果指标 |
|
8、集成学习 - 个体与集成 - Boosting 随机森林 - Bagging - GBDT 和 XGBoost - Stacking |
|
9、概率图模型 - 隐马尔可夫模型 - 马尔可夫随机场 - 条件随机场 |
|
10、关联规则 - 频繁项集、关联规则 - Aprori 算法、序列挖掘 - 谷歌的 pagerank 算法 |