关键字:大数据,机器学习,统计分析,分类,优化,算法
推荐:★★★★★
难度:★
豆瓣链接:https://book.douban.com/subject/3288908/
python为什么越来越火?
背后肯定有推动因素,
因为数据分析学家们,和喜欢算法的人们都在用它。
通常是,
为了和那个领域的人们交流,
我们就不得不学习他们的语言,
编程语言也是如此。
这本书就是用python语言来介绍机器学习的。
机器学习是一个火热的领域,
随着大数据时代的到来,
通过少量样本建模,再用模型来预测未来,
已经越来越不必要了。
人们有了更准确的办法,
那就是利用集体智慧,
这和会议投票表决是一个思路,
只是不同的是,统计分析学家们在这条路上走的更远。
例如,投票表决是按投票数量来决策的,
但是投票数量只是这个数据集的某一个特征,
甚至连权重都没有做,也没有聚类,更没有去噪。
为了更好的挖掘数据集的隐含特征,
本书给出了一系列耳熟能详的算法,
贝叶斯分类器,决策树分类器,神经网络,
支持向量机,k-最近邻,聚类,多维缩放,
非负矩阵因式分解,模拟退火,遗传算法,
甚至后面还提到了可以自动更改算法的遗传编程。
那么,为什么我能粗略的看完一遍,
就能如此印象深刻呢?
原因就是,这是一本好书。
好书都是一步一探索,一步一总结。
本书可以分为两个部分,
第一部分属于探索阶段,
作者分别介绍了上面的每一个算法,
更重要的是,详细说明了算法引入的思路,
为了解决什么问题,为何要改进它,
有什么局限性。
第二部分比较少,只有50页,
但是总结了本书提到的所有算法,
如果前面仔细读过,再读第二部分,
感觉畅快淋漓,一览众山小。
如果书单比较多,又不得不看本书,
那么只看第二部分是个不错的选择。
这些算法,离不开数学知识,
但是高中水平已经够了,
只有少量的一些概率论,线性代数,
这也是好书的特征,
深入浅出,切入点低,眼光高。
最后,提一下本书的不足,
就是前面的探索阶段比较啰嗦,
没有耐心的读者,可能会直接陷入细节中。
因为人们更想先看看这个领域的现状。
如果把第二部分放在前面会更好一些。
随着机器学习在工业上的推广,
本书已经不得不读了。