集体智慧编程 - 图1

    关键字:大数据,机器学习,统计分析,分类,优化,算法

    推荐:★★★★★
    难度:★

    豆瓣链接:https://book.douban.com/subject/3288908/


    python为什么越来越火?
    背后肯定有推动因素,
    因为数据分析学家们,和喜欢算法的人们都在用它。

    通常是,
    为了和那个领域的人们交流,
    我们就不得不学习他们的语言,
    编程语言也是如此。

    这本书就是用python语言来介绍机器学习的。

    机器学习是一个火热的领域,
    随着大数据时代的到来,
    通过少量样本建模,再用模型来预测未来,
    已经越来越不必要了。

    人们有了更准确的办法,
    那就是利用集体智慧,
    这和会议投票表决是一个思路,
    只是不同的是,统计分析学家们在这条路上走的更远。

    例如,投票表决是按投票数量来决策的,
    但是投票数量只是这个数据集的某一个特征,
    甚至连权重都没有做,也没有聚类,更没有去噪。

    为了更好的挖掘数据集的隐含特征,
    本书给出了一系列耳熟能详的算法,
    贝叶斯分类器,决策树分类器,神经网络,
    支持向量机,k-最近邻,聚类,多维缩放,
    非负矩阵因式分解,模拟退火,遗传算法,
    甚至后面还提到了可以自动更改算法的遗传编程。

    那么,为什么我能粗略的看完一遍,
    就能如此印象深刻呢?
    原因就是,这是一本好书。
    好书都是一步一探索,一步一总结。

    本书可以分为两个部分,
    第一部分属于探索阶段,
    作者分别介绍了上面的每一个算法,
    更重要的是,详细说明了算法引入的思路,
    为了解决什么问题,为何要改进它,
    有什么局限性。

    第二部分比较少,只有50页,
    但是总结了本书提到的所有算法,
    如果前面仔细读过,再读第二部分,
    感觉畅快淋漓,一览众山小。

    如果书单比较多,又不得不看本书,
    那么只看第二部分是个不错的选择。

    这些算法,离不开数学知识,
    但是高中水平已经够了,
    只有少量的一些概率论,线性代数,
    这也是好书的特征,
    深入浅出,切入点低,眼光高。

    最后,提一下本书的不足,
    就是前面的探索阶段比较啰嗦,
    没有耐心的读者,可能会直接陷入细节中。
    因为人们更想先看看这个领域的现状。
    如果把第二部分放在前面会更好一些。

    随着机器学习在工业上的推广,
    本书已经不得不读了。