大纲

    1、Python 基础学习
    - 解释器:IDE。Anaconda
    - 列表/元组/字典/类/文件
    - python安装与环境配置
    - python基本数据类型:list, dict, tuple, set
    - Python 文件操作:txt, excel等
    - Python 的标准库
    - Python 高级用法:切片、迭代、map、filter、 reduce
    代码和实战案例:
    2、python 网络爬虫
    - 字符串重要方法应用
    - 中英文分词,拼音处理
    - 网页文本提取与图片下载
    - 简单反爬机制对抗
    代码和实战案例:
    3、Python 数据分析
    - Numpy/Scipy/Pandas/Matplotlib/Seaborn 库
    - Numpy 基础属性与数组创建
    - Numpy 索引
    - Numpy 数学运算与常用分布
    - Pandas 数据处理与分析
    - Pandas 文件读写和个性化控制
    - Pandas 的 concat 与 merge
    - Matplotlib 基本图结构介绍
    - 基于 Matplotlib 绘制散点图、柱状图、等高线 图、3D 图等
    - 多图合并与图片文件存取
    - scikit-learn 的介绍和典型使用
    - XGBoost、LightGBM
    - 多元高斯分布
    - 典型图像处理
    - 多种数学曲线
    - 多项式拟合
    代码和实战案例:
    4、回归分析
    - 线性回归
    - Logistic/Softmax 回归
    - 广义线性回归
    - L1/L2 正则化
    - Ridge 与 LASSO
    - Elastic Net 梯度下降算法:BGD 与 SGD 特征选择与过拟合
    - Softmax 回归的概念源头
    - 最大熵模型
    - K-L 散度
    代码和实战案例:
    5、决策树和随机森林
    - 熵、、联合熵、条件熵、KL 散度、互信息
    - 最大似然估计与最大熵模型
    - ID3、C4.5、CART 详解
    - 决策树的正则化
    - 预剪枝和后剪枝
    - Bagging Boosting AdaBoost GBDT XGBoost
    - 随机森林
    - 不平衡数据集的处理
    - 利用随机森林做特征选择
    - 使用随机森林计算样本相似度
    - 异常值检测
    6、SVM
    - 线性可分支持向量机
    - 软间隔
    - 损失函数的理解
    - 核函数的原理和选择
    - SMO 算法
    - 支持向量回归 SVR
    - 多分类 SVM
    7、聚类
    - 各种相似度度量及其相互关系
    - Jaccard 相似度和准确率、召回率
    - Pearson 相关系数与余弦相似度
    - K-means 与 K-Medoids 及变种
    - AP 算法(Sci07)/LPA 算法及其应用
    - 密度聚类 DBSCAN/DensityPeak(Sci14)
    - 谱聚类 SC
    - 聚类评价和结果指标
    8、集成学习
    - 个体与集成
    - Boosting 随机森林
    - Bagging
    - GBDT 和 XGBoost
    - Stacking
    9、概率图模型
    - 隐马尔可夫模型
    - 马尔可夫随机场
    - 条件随机场
    10、关联规则
    - 频繁项集、关联规则
    - Aprori 算法、序列挖掘
    - 谷歌的 pagerank 算法