在数据分析、挖掘方面,有哪些好书值得推荐? - 知乎
2017年4月5日 星期三
09:16
81 个回答
肖智博
1
新加坡南洋理工大学 电气与电子工程博士后
收录于 编辑推荐 ·
刘锤
等
2016.05.17 更新,周志华老师出书了 机器学习 (豆瓣) 都已经再版好多次了才来推荐,有些晚了。
————-
2014.2.1更新,由于经常接到私信要求在这个书单之内再推荐两三本,每个人的行业背景也不一样,所以就把下面的书单归类整理一下。
————-
机器学习 (豆瓣)
把这本书放在下面所有的推荐之上。
入门读物:
- 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
- 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。
- 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
- 数学之美 (豆瓣) 这本书非常棒啦,入门读起来很不错!
数据分析:
- SciPy and NumPy (豆瓣) 这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。
- Python for Data Analysis (豆瓣) 作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!
- Bad Data Handbook (豆瓣) 很好玩的书,作者的角度很不同。
适合入门的教程:
- 集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
- Machine Learning in Action (豆瓣) 用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师(微博:
王斌_ICTIR)已经翻译这本书了 机器学习实战 (豆瓣)。这本书本身质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一! - Building Machine Learning Systems with Python (豆瓣) 虽然是英文的,但是由于写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
- 数据挖掘导论 (豆瓣) 最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。难易程度:中上。
- Machine Learning for Hackers (豆瓣) 也是通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。
稍微专业些的:
- Introduction to Semi-Supervised Learning (豆瓣) 半监督学习必读必看的书。
- Learning to Rank for Information Retrieval (豆瓣) 微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!
- Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
- 推荐系统实践 (豆瓣) 这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
- Graphical Models, Exponential Families, and Variational Inference (豆瓣) 这个是Jordan老爷子和他的得意门徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的创刊号,可以免费下载,比较难懂,但是一旦读通了,graphical model的相关内容就可以踏平了。
- Natural Language Processing with Python (豆瓣) NLP 经典,其实主要是讲 NLTK 这个包,但是啊,NLTK 这个包几乎涵盖了 NLP 的很多内容了啊!
机器学习教材:
- The Elements of Statistical Learning (豆瓣) 这本书有对应的中文版:统计学习基础 (豆瓣)。书中配有R包,非常赞!可以参照着代码学习算法。
- 统计学习方法 (豆瓣) 李航老师的扛鼎之作,强烈推荐。难易程度:难。
- Machine Learning (豆瓣) 去年出版的新书,作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
- Machine Learning (豆瓣) 这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材,由于配有代码,所以理解起来比较容易。
- Pattern Recognition And Machine Learning (豆瓣) 经典中的经典。
- Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
- Probabilistic Graphical Models (豆瓣) 鸿篇巨制,这书谁要是读完了告诉我一声。
- Convex Optimization (豆瓣) 凸优化中最好的教材,没有之一了。课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。
编辑于 2016-05-17
桑文锋
神策数据创始人兼CEO,前百度大数据部技术经理。
数据分析方面,我推荐《精益数据分析》,这本书里讲解了创业公司该如何确定指标体系,如何用数据指导产品和运营。本书还针对电商、媒体、SaaS、双边市场、Ugc等,列举了要关注的指标,并有丰富的案例。不足是整个书的内容比较散,系统性不强,但依旧是讲互联网产品数据分析方面我觉得最好的一本了。
数据挖掘方面,我推荐韩家炜的《数据挖掘概念与技术》,我自己就是在工作之后,通过阅读这本书,对数据挖掘有了系统性的认识,后来我研究用户行为序列模式挖掘的时候,发现看的许多论文都出自他的实验室。在两三年前,他还去百度做过一次报告,有幸去听了。
当然,光靠看看书是远远不够的,想深入数据分析,就在自己的工作中尝试用数据指导决策,不管是项目效果的评估,运营活动的评估,都尝试用数据来验证。对于数据挖掘,还是找个应用场景,直接写程序去尝试一下个性化推荐,分类之类的算法,这样就不会觉得云里雾里了。
大数据分析方面,也可以看看我的知乎专栏:https://zhuanlan.zhihu.com/sangwf…,我里面写了一些之前在百度从零到一构建大数据平台的经历,以及如何实现数据驱动,希望能有帮助。
发布于 2016-07-23
jo.x
Business Analytics 在读
从系里的reading list挑了些分享给大家:
1.
Competing on Analytics (豆瓣)
2. Work, and Think>
https://book.douban.com/subject/12053751/…
https://book.douban.com/subject/20429677/… (中文版)
3.
https://book.douban.com/subject/11580128/…
信号与噪声 (豆瓣) (中文版)
4.
by Eric Siegel, Thomas H. Davenport
https://book.douban.com/subject/19990583/…
大数据预测 (豆瓣)
5.
by Sam L. Savage, Jeff Danziger, Harry M. Markowitz
The Flaw of Averages (豆瓣)
6.
Taming The Big Data Tidal Wave (豆瓣)
驾驭大数据 (豆瓣)
7.
by Jim Manzi (hi-level intro to controlled experiments with many business examples)
Uncontrolled (豆瓣)
8. by Randy Bartlett.
Big Data Analytics with Spark: A Practitioner’s Guide to Using Spark for Large Scale Data Analysis (豆瓣)
9.
Bias and Causation (豆瓣)
10.
The Black Swan (豆瓣)
黑天鹅 (豆瓣)
11.
Understanding Variation (豆瓣)
12.
Win with Advanced Business Analytics (豆瓣)
13.
Handbook of Statistical Analysis and Data Mining Applications (豆瓣)
14.
The Elements of Statistical Learning (豆瓣)
15.
Introduction to Machine Learning (豆瓣)
16.
Living Standards Analytics (豆瓣)
17. <Mostly Harmless Econometrics: An Empiricist’s Companion> by Joshua D. Angrist, Jörn-Steffen Pischke
Mostly Harmless Econometrics (豆瓣)
18.
Counterfactuals and Causal Inference (豆瓣)
19. by Gordon S. Linoff , Michael J. A. Berry (This is a good high-level technical intro book for data mining)
Data Mining Techniques (豆瓣)
*我也陆陆续续在看,有兴趣的朋友可以私信我,我们有空一起聊聊 (´・◡・`)
*中信翻译了很多啊
*基本是General Business Analytics类别的书,技术性不会特别特别强
*之后如果我自己看到别的书会慢慢更新
编辑于 2016-09-12
张溪梦 Simon
http://Growing.IO CEO,世界前十位前沿数据科学家
本文主要讲数据分析方面的书籍:从入门到精通:互联网数据分析的书籍清单。
任何一个技能的学习,都有从浅到深的过程,数据分析也不例外。因此我把推荐书籍划分成几个段位,更便于大家挑选。
Part 1 | 入门版
适合对数据分析的入门者,对数据分析没有整体概念的人,常见于应届毕业生,经验尚浅的转行者。
深入浅出数据分析 (豆瓣):HeadFirst 类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知。
谁说菜鸟不会数据分析 (豆瓣):不仅讲解了一些常见的分析技巧,并附带 Excel 的一些知识以及数据分析在公司中所处的位置,对职场了解亦有一定帮助。
赤裸裸的统计学 (豆瓣):作者年轻时是个追求学习意义的学霸,后来自己从统计学中发掘了很多可以应用到生活的地方。这也是本书的主旨,结合生活讲解统计知识,生动有趣。可以避免统计学一上来就大讲贝叶斯概率和随机分析的枯燥。
同样类似的书籍还有「统计数字会撒谎 (豆瓣)」,这本书知名度要高点,不过我还没看…
Part 2 | 进阶版
具有一定的行业针对性,要求具备一定的分析常识,适合网站分析师,商业分析师以及数据产品经理。
精通 Web Analytics 2.0 (豆瓣):此书虽老,但其中很多思想和流量分析的案例仍然很有借鉴意义,现在纸质书只能上淘宝买旧书了。
与此类似的有「网站分析实战 (豆瓣)」,是国内一本讲网站分析的书,没有上面经典,但胜在新出,很多案例和理念都有及时的更新。
深入浅出统计学 (豆瓣):Headfirst 类书籍,可以帮助你快速了解统计方面的知识。
数据化管理:洞悉零售及电子商务运营 (豆瓣):黄成明著,讲解在企业中应用数据的例子,读完受益匪浅,里面举的很多例子都很接地气。虽说偏向于零售业管理,但大道归一,可适用于很多行业,当时依据里面的理念规划了美团外卖面向 BD 的数据产品。
MySQL 必知必会 (豆瓣):这本也是我当年学习 SQL 的入门书,薄册子一本,看起来很快。SQL 是个性价比很高的技能,简单而强大。任何想进一步提高自己数据分析技能的产品/运营/分析师 同学,都建议点亮 这个技能点。
互联网增长的第一本数据分析手册:我司 GrowingIO 出的一本数据分析的增长手册(封面和目录见下图),为大家提供常见的分析手段讲解,如漏斗分析,同期群分析等等。可点击书籍名字在 GrowingIO 技术论坛中免费下载。
Part 3 | 高阶版
更高阶的数据相对来说专业性较强了,如涉及到企业内部数据治理,数据结合的业务分析,数据可视化等。当然,还有数据挖掘算法之类的更深入的东西,这块没有研究就不瞎推荐了。
决战大数据 (豆瓣):阿里巴巴前数据副总裁车品觉老师所著,讲解了阿里巴巴在企业内部治理数据过程中的心得,所讲“存-通-用”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。
精益数据分析 (豆瓣):此书优势在于将企业分成了几个大的行业类别,并分门别类的讲解了每个行业的商业模式特点及分析技巧,对使用者的分析能力要求较高,且必须具备相应的业务知识。
The Wall Street Journal Guide to Information Graphics (豆瓣),华尔街日报负责商业分析的人做的可视化指南,精华且实用,我之前在公众号上写过读书笔记「华尔街日报是这样做数据可视化的(1)」,可供大家参考。
《数据仓库经典教程》:网上有人整理出来的资料,优点是简单明了,不像正常的数据仓库教材厚厚一本。
本文作者陈新涛,GrowingIO - 硅谷新一代数据分析产品 产品经理。
编辑于 2016-08-31
Han Hsiao
数据挖掘、数据分析 话题的优秀回答者
一、引言
肖智博已经说得很全面了,再补充一些:)
之前回答过这类问题,有兴趣的话建议先看一看:
二、因为问题已经更新到了马年,所以推荐几本2014年刚出的数据科学好书。(网上已经有PDF版可以下载,此处不再给出)
- 《Doing Data Science: Straight Talk from the Frontline》:Doing Data Science (豆瓣)
作者之一Rachel Schutt本科在密歇根大学学习数学,同时拥有纽约大学数学硕士学位,以及斯坦福大学工程经济系统和运筹学双硕士学位,美国哥伦比亚大学统计学博士学位,而后在谷歌研究所担任统计学专家。Johnson研究实验室的高级科学家兼创始人之一,目前在哥伦比亚大学讲授“数据科学导论”(Introduction to Data Science)课程。她提出了数据科学家的概念即“计算机科学家、软件工程师和统计学家的混合体。”另一位作者Cathy O’Neil是哈佛大学数学博士,麻省理工学院数学系博士后,目前在华尔街的德劭基金(D.E.Shaw)做quant。(总之是两个大牛XD)
本书前面几个章节大致介绍了数据分析法、一些机器学习算法、线性回归和逻辑回归、朴素贝叶斯等等。其中有一些内容需要一些数学基础才能吃透。 第六到十章节是本书的精华,详细介绍了如何利用金融及社交网络中的数据进行数据建模分析,值得反复回味。
- 《Agile Data Science: Building Data Analytics Applications with Hadoop》:Agile Data Science (豆瓣)
本书适合刚入行的数据爱好者以及有两三年工作经验数据科学家,作者立志打造一个full-stack解决方案(包括开发框架、运行环境等,有了它无需再下载别的软件)来减少前期在数据准备上必须花费的大量时间。此外书中的一些例子放在了GitHub上,建议一边看书一边DIY。
- 《Fast Data Processing with Spark》:Fast Data Processing with Spark (豆瓣)
目前市面上关于Spark的书籍不多,这本120多页的薄书可以当做预热。Spark同Hadoop一样是基于Mapreduce算法实现的分布式计算,不同的是任务的中间输出结果可以保存在内存中无需读写HDFS,所以更加适合需要进行反复迭代的机器学习算法实验。作者Holden Karau曾在亚马逊数据挖掘项目组,目前是一名在谷歌工作的软件研发工程师。
以上,有时间再来更新。祝挖掘快乐:)
发布于 2014-04-15
rainful
数据分析
入门篇:
1.《深入浅出数据分析》
内容简介:《深入浅出数据分析》以类似“章回小说”的活泼形式,生动地向读者展现优秀的数据分析人员应知应会的技术:数据分析基本步骤、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧;正文以后,意犹未尽地以三篇附录介绍数据分析十大要务、R工具及ToolPak工具,在充分展现目标知识以外,为读者搭建了走向深入研究的桥梁。
本书构思跌宕起伏,行文妙趣横生,无论是职场老手,还是业界新人,无论是字斟句酌,还是信手翻阅,相信都能跟着文字在职场中走上几回,去体味数据分析领域的乐趣与挑战。
2. 《谁说菜鸟不会数据分析》
内容简介:《谁说菜鸟不会数据分析》基于通用的Excel工具,形式活泼,内容丰富而且充实,让人有不断阅读下去的动力。在8个章节中,分别讲解数据分析必知必会的知识、数据处理技巧、数据展现的技术、通过专业化的视角来提升图表之美、数据分析报告的撰写技能以及持续的修炼。
3. 《大数据时代》
内容简介:维克托•迈尔•舍恩伯格在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。
本书的核心在于大数据预测,并在书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。
4. 《深入浅出SQL》
内容简介:《深入浅出SQL》带你进入SQL语言的心脏地带,从使用INSERT和SELECT这些基本的查询语法到使用子查询(subquery)、连接(join)和事务(transaction)这样的核心技术来操作数据库。到读完《深入浅出SQL(影印版)》之时,你将不仅能够理解高效数据库设计和创建,还能像一个专家那样查询、归一(normalizing)和联接数据。你将成为数据的真正主人。
5.《数据之美》
内容简介:本书通过世界上最好的数据工作者的示例,向读者展示处理数据的方法。本书使得读者可以站在优秀的数据设计师、管理者和处理者的肩上,去仔细审视涉及到数据的一些最有趣的项目。
进阶篇:
1.《精益数据分析》
内容简介:本书展示了如何验证自己的设想、找到真正的客户、打造能赚钱的产品,以及提升企业知名度。30多个案例分析,全球100多位知名企业家的真知灼见,为你呈现来之不易、经过实践检验的创业心得和宝贵经验,让你深入理解精益创业、数据分析基础,和数据驱动的思维模式。
2.《网站分析实战》
内容简介:本书以通俗易懂的方式来讲解网站分析所需掌握的知识,剖析日常工作中遇到的问题,并且配合大量的实战案例的讲解。
不管你是做网络营销、互联网产品设计、电子商务运营、个人站点运营维护,我们都希望从数据中寻找有价值的结论,并且指导公司管理层的决策,最终创造更大的网站价值。
3.《R语言实战》
内容简介:通读本书,你将全面掌握使用R语言进行数据分析、数据挖掘的技巧,并领略大量探索和展示数据的图形功能,从而更加高效地进行分析与沟通。想要成为倍受高科技企业追捧的、炙手可热的数据分析师吗?想要科学分析数据并正确决策吗?不妨从本书开始,挑战大数据,用R开始炫酷的数据统计与分析吧!
4.《利用Python进行数据分析》
内容简介:还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。
由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。
5.《深入浅出统计学》
内容简介:本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区
间的构建、假设检验、卡方分布、相关与回归等等,。本书运用充满互动性的真实世界情节,教给你有关这门学科的所有基础,为这个枯燥的领域带来鲜活的乐趣,不仅让你充分掌握统计学的要义,更会告诉你如何将统计理论应用到日常生活中。
6.《用户体验度量》
内容简介:有效地测量任何产品的可用性都需要选择和使用正确的度量.并要有效地利用它所揭
示出来的信息。《用户体验度量》首次介绍了相关实用资料.可以使可用性从业人员和产品开发人员完成这种测量。作者把几十个种度量整理成六类:绩效、基于问题的、自我报告式的、Web导航、综合性的/派生的, 以及生理/行为的。他们对每一种度量都进行了考察,并认真考虑了收集、分析和呈现这些数据的最佳方法。他们对使用任何技术来测量任何类型产品的可用性都提供了步进式指导。
7. 《The Wall Street
Journal Guide to Information Graphics》
内容简介:
“华尔街日报”的新闻图形总监倾力之作,本书通过循序渐进的指南和清晰简洁的图形,为我们展示如何使用不同的技术来有效地传达消息。
高段位:
1.《数学之美》
内容简介:作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式
——
如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。
2. 《数据挖掘与数据化运营实战》
内容简介:《数据挖掘与数据化运营实战:思路、方法、技巧与应用》是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作。作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的“非技术”语言和大量活泼生动的案例,围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。
3.《集体智慧编程》
内容简介:本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
4. 《数据挖掘-市场营销、销售与客户关系管理领域应用》
内容简介:本书是数据挖掘领域的经典著作,数年来畅销不衰。全书从技术和应用两个方面,全面、系统地介绍了数据挖掘的商业环境、数据挖掘技术及其在商业环境中的应用。
5. 《数据可视化之美》
内容简介:在《数据可视化之美》中,20多位可视化专家包括艺术家、设计师、评论家、科学家、分析师、统计学家等,展示了他们如何在各自的学科领域内开展项目。他们共同展示了可视化所能实现的功能以及如何使用它来改变世界。
6.
《流量的秘密》
内容简介:《流量的秘密:Google Analytics网站分析与优化技巧》将运用最新的网络计量学方法,教你获取真正有价值的信息。
哪种市场营销活动最有成效?如何量化这些效果?应该从哪些衡量指标进行追踪?《流量的秘密:Google Analytics网站分析与优化技巧》介绍的Google Analytics分析工具,将帮你完美解决这些问题,让你真正量化网站的成效。
《流量的秘密:Google Analytics网站分析与优化技巧》讲述了安装和配置Google Analytics最实用的技术,目标很明确:将最大化网站潜力所需要的知道奉献给读者。通过了解网站的访客,你可以如手术刀般精准地调整网页内容和营销预算,以期获得更佳的投资回报率。
《流量的秘密:Google Analytics网站分析与优化技巧》适合市场营销人员、网站管理员、网站决策人员,还有所有对网站营销有商业兴趣的人。
7. 《数据化决策》
内容简介:数据无孔不入,大数据时代,谁掌握了数据,谁就能把握成功。“一切皆可量化”,道格拉斯这个大胆的宣言是解决诸多生活和商业问题的关键所在。本书详细讲解了:专注于量化不确定性、风险和数据价值;提供了令人拍案惊奇的测算无形之物的简便方法,让你仅仅基于已知数据就能准确决策;展示了丰富而精彩的量化案例,让身边的数据唾手可得。
本书兼具实用性、可读性与趣味性,甚至让反感数据的人也能发现它的亲切。
8. 《机器学习》
内容简介:《机器学习》展示了机器学习中核心的算法和理论,并阐明了算法的运行过程。《机器学习》综合了许多的研究成果,例如统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等,并以此来理解问题的背景、算法和其中的隐含假定。
9.
《数据挖掘与R语言》
内容简介:本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
10.《数据挖掘与知识发现》
内容简介:本书详细地介绍了关联规则、聚类分析、决策树、贝叶斯网络、人工神经网络、支持向量机、粗糙集、模糊集等数据挖掘模型与算法。
发布于 2017-02-06
浩彬老撕
公众号:wetalkdata,一个有趣的IBM工程师走在数据科学的路上
我也来分享一个自己的书单:
#关于这份学习清单#
我会按照基础到入门给出详细推荐,并且附上个人点评。同时尽量做到各个资料在内容上并不重复(即使内容上有重复,也会在难度上做出区分),希望可以以最直接的方式告诉大家应该怎么选择。
Ps:这是第一版学习指南,由于最近时间比较紧张,预计在第二版中会加入业务材料的推荐和更多的学习索引,欢迎关注。
1先验知识
由于统计学概率论甚至到机器学习会对数学基础有一定要求,所以这里给出一些先验知识的内容推荐,主要是矩阵方面。
1.1 课程
可汗学院公开课:线性代数课程
可汗学院公开课:线性代数
因为网易公开课有翻译,这里是中文字幕课程链接,这里真要给网易100个赞,字幕做得很好。
“可汗学院(Khan Academy),是由孟加拉裔美国人萨尔曼·可汗创立的一家教育性非营利组织,主旨在于利用网络影片进行免费授课,现有关于数学、历史、金融、物理、化学、生物、天文学等科目的内容,教学影片超过2000段,机构的使命是加快各年龄学生的学习速度。”
1.2 参考书籍
(1)线性代数 豆瓣评分7.3
清华居余马老师的线性代数教材,比较经典的教材了,里面的知识足够支撑我们后续统计分析和机器学习需要。
(2)高等代数 豆瓣评分8.1
相比于线性代数,高等代数更加深入,一般线性代数为非数学专业所用,数学类专业一般学习高等代数。不过一般情况下,线性代数也足够使用了。
当然,在后续学习中有些算法也会用到微积分的知识,但是都比较基础,因此遇到不懂的时候直接查资料即可,就没有特定推荐材料了。
2统计分析学习资料
2.1 统计学/概率课程
同样推荐可汗学院的统计学和概率课程,而且刚好这两门课程也被网易公开课进行了翻译:
(1) 可汗学院公开课:统计学
可汗学院公开课:统计学
(2) 可汗学院公开课:概率
可汗学院公开课:概率
这两本课程总体不算太难,适合入门。个人觉得讲授还是蛮有特点的,粗暴直接,另外举的例子也是蛮有趣的。
2.2统计学/概率参考书
(1)统计学 豆瓣评分8.8
作者William Mendenhall / Terry Sincich
“《统计学(原书第5版)》内容丰富,很少涉及统计学理论的严格数学证明,绝大部分是与实际应用紧密联系的例子和练习,适合作为理工科各专业本科生、研究生的统计学教材,也可作为相关领域研究人员的参考读物。”
非常注重实用的统计学课程,偏应用,少数学证明,可读性比较强;
(2)统计学 豆瓣评分7.3
作者:贾俊平,何晓群,金勇进
统计比较通用的入门教材了,不知不觉竟然到了第六版,个人认为也算是兼顾数学证明和应用,可读性没有上面强,但是也非常的通俗易懂,有很多统计学专业的起始教材也会选择这本。
(3)统计推断 豆瓣评分8.8,/英本原本9.2
作者:William Mendenhall / Terry Sincich
非常经典经典的统计学教材,借用介绍“从概率论的基础开始,通过例子与习题的旁征博引,引进了大量近代统计处理的新技术和一些国内同类教材中不常见而又广为使用的分布。其内容既包括工科概率入门、经典统计和现代统计的基础,又加进了不少近代统计中数据处理的实用方法和思想”
可以作为研究生所用教材,有深度,但是作者循序渐进,解释得非常漂亮
3机器学习资料
3.1机器学习课程
强烈推荐Andrew NG吴恩达的斯坦福机器学习课程,英文授课,但是已有完善的中文字幕,内容非常丰富且充实(20节),并且讲解得非常的好,如果你想学习机器学习,一定不能错过!
Coursera地址:
Coursera - Free Online Courses From Top Universities
网易公开课地址:
斯坦福大学公开课 :机器学习课程
同时该课程配有课件讲义,同样建议大家在学习视频课程之余多看讲义和习题,虽然是英文,但是阅读上基本没有什么问题,就讲义本身也是非常的棒。
如果大家学习完Andrew NG的机器学习,还想通过其他课程触类旁通,相互借鉴的话,可以上Coursera上门搜索还有其他选择,例如台大的机器学习基础等等,但毫无疑问首推Andrew NG的课程;
另外现在国内也有越来越多的培训网站推出相关课程,大家有兴趣的可以自己搜搜,这里就不做推荐了;
3.2机器学习教材
(1)数据挖掘导论 豆瓣评分8.4,/英本原本8.8
作者: Pang-Ning Tan、Michael Steinbach、Vipin Kumar
介绍得非常全面的一本书,但可能因为需要涵盖的内容太多,所以难免有些算法只能简单介绍。尽管这样,个人认为也是非常难得一见的入门教材,有一定难度。这本书从简单的数据开始,到各种分类算法,聚类算法,关联规则都有相对完整的指引,我认为对于我们构建自身的统计挖掘体系是有很大的帮助。中文版本翻译还是挺好的,但是英文原版那是极好的。
(2)统计学习方法 豆瓣评分:8.9
作者:李航
个人认为中文教材里面少见的精品,虽然精简,但逻辑非常的清晰,非常详细地为我们剖析了算法原理,可能不太适合入门者,但是还是非常值得推荐阅读学习,建议将《数据挖掘导论》以及《统计学习方法》相互借鉴学习
(3)The Elements of Statistical Learning(统计学习基础)
豆瓣英本原版评分9.4 中文评分7.4
作者:Trevor Hastie
这本书被广大人民喜称为ESL,虽然书名是统计学习基础,但是此书一点都不基础,一点都不~另外此书还有一本专门的入门版本ISL(后面会介绍)
这本书涵盖了非常多的内容,讲解深入,有人评价说,“有了这本书就不需要其他机器学习教材”,虽然有点夸张,但是此书实际是机器学习的经典巨作,如果你真的希望好好研究机器学习,此书非常值得仔细研读,另外此书要求不低的统计理论和数学基础。
此外,这本书还有一个牛逼的地方在于,作者把书放在网上免费下载:
Elements of Statistical Learning: data mining, inference, and prediction.
2nd Edition.
前面都是一些理论知识,但是数据科学里面实践应用又是另外一个重中之重,接下来谈一下借助工具进行实践应用的问题,由于Python还在整理当中,本次主要介绍SPSS与R语言:
4SPSS学习资料
考虑到SPSS分为统计模块Statistics以及数据挖掘模块Modeler , 因此也分为两大块介绍
4.1SPSS统计分析资料
SPSS Statistics 市面上的书籍比较多,从我个人的角度,认为张文彤老师的系列足以让大家加深对统计体系的理解,同时也能很好掌握在实际的应用当中如何使用统计分析帮助我们完成任务,我认为掌握统计分析原理实战和SPSS操作,以下两本书足矣。
(1) SPSS统计分析基础教程 豆瓣评分8.4
提供了包括医疗、经济、市场研究等方面的案例贯穿了全书,能够很好从实际应用角度把统计分析原理和SPSS操作结合起来,也提供了很好的结果解读,不失为一本极好的工具指南。
(2)高等学校教材(SPSS统计分析高级教程)豆瓣评分7.7
相比于基础教材,高级教程介绍了更多的统计算法模型,同时也提供了一些统计新方法和新观点的讲解。整体来说直观易懂,能够很好提升实战能力。
另外张文彤老师也有对应视频课程 《张文彤SPSS初中级教程》以及《张文彤SPSS高级教程》
4.2 SPSS机器学习教程
(1)Modeler官方的帮助文档和Sample文件
Modeler提供完备Sample数据和数据建模文件,并且配套中文说明,可以帮助入门者一步一步搭建数据建模流并理解实际应用场景。Modeler提供的帮助文档包括有算法说明,节点说明,Crisp-dm方法论,应用文档等,其中比较重要一本如:《IBM SPSS Modler 应用程序指南》
(2) IBM SPSS数据分析与挖掘实战案例精粹 豆瓣评分9.3
作者:张文彤,钟云飞
非常详尽工具手册,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,尤其是书本最后几章实践案例,从商业问题界定到商业应用,给出了非常详尽的建模指南,个人认为目前市面上Modeler最好的工具手册;另外即使不是使用SPSS,而是用其他工具,该书后面的例子也值得大家研读。
5R语言学习资料
(1)R语言实战 豆瓣评分8.8
作者:Robert I.Kabacoff
首先这本书绝对可以担当日常工具手册,从基本操作,数据处理,数据建模,图形展示都给出了非常详尽的介绍;其次虽然是工具手册,但是能够结合基本统计知识于简单案例,具有很强实践性,强烈建议各位把书中的代码都实现,相信能够大大提升R的功力。最后说一句,此书翻译得不错。
(2)AnIntroduction to Statistical Learning(统计学习导论) 英本版豆瓣评分9.5,中文版7.6
作者:Trevor Hastie,Robert Tibshirani ,Jerome Friedman
此书被广大人民群众称为ISL,没错,就是上面ESL的入门版本。无论作为统计教材推荐还是R语言教材推荐都称得上5星的读物。ISL虽然是入门版本,但是绝对不是因为内容简单。深入浅出,内容详细,常常读完有种恍然大悟的感觉,同时能够结合R语言介绍,大大的加分。
最后厚颜无耻地介绍我个人的公众号,wetalkdata,定期更新数据分析,数据挖掘方法,Statistics以及Modeler操作指南(比帮助手册更详细),而且还有送书活动!
编辑于 2016-05-22
数据分析狮
数据分析师@阿里巴巴
2本书让我明白什么是、如何做数据挖掘。
1、数据挖掘概念与技术。从基础上,讲解各种算法与原理。
2、数据挖掘与数据化运营实战。以一个阿里巴巴数据运营从业人员的角度,讲解电子商务中,如何利用数据进行数据化运营来创造价值。
PS:不要去收藏一长串的书单,只会让你觉得无助与恐惧。认真看完这两本书后,你自然会明确下一步自己需要看的是什么书。
编辑于 2016-07-24
Ruobing Shen
1
海德堡大学交叉学科计算中心 离散与组合优化实验室研究员
有youtube常青藤名教授的免费上课视频,为何不先睹为快???一个教授给你上课的时候,肯定是会推荐书给你的。当然了,翻墙是楼主suppose你们需要拥有的基本生存技能。
先放链接再阐述我对数据科学进击之路的理解。(注:以下视频是楼主自己在学习的,因此多为graduate course,仅作演示目的)
1,Machine Learning by Prof. Nando de Freitas, 此视频是其在UBC时13年所录,后来跳槽去牛津计算机系了。
https://www.youtube.com/playlist?list=PLE6Wd9FR—EdyJ5lbFl8UuGjecvVw66F6…
2,Deep learning at Oxford 2015 by Prof. Nando de Freitas, 跳槽到牛津所录。
https://www.youtube.com/playlist?list=PLE6Wd9FR—EfW8dtjAuPoTuPcqmOV53Fu…
3,Probabilistic Graphical Models by Daphne Koller, 斯坦福大学计算机系教授
https://www.youtube.com/playlist?list=PL50E6E80E8525B59C…
简单的说,原理和基础都在数学这边。
线性代数(矩阵表示和运算)是基础中的基础,微积分(求导,极限);
数据处理当然需要编程了,因此C/C++/Python任选一门,数据结构可以学学,只是让你编程更顺手,但是编程不是数据处理的核心。
Mid-level的课程,概率论+统计(很多数据分析基于统计模型),线性规划+凸优化(统计到最后也还是求解一个优化问题,当然也有纯优化模型不用统计模型的)
再高阶的课程,就是些研究生的课程了,就比较specific了,可以看你做的项目再选择选修,比如:Probabilistic Graphical Models, Nolinear Programming, Integer Programming, Machine Learning(其实机器学习,学的都是一些统计和优化),图像处理,deep learning, 神经网络,等等等等。
学到Mid-level,然后做几个实际项目,就能上手咯。要读Phd搞科研,才上高阶的。
至于书,没有特别推荐的,但是建议看英文原版。或者,直接翻墙Youtube看视频课程,很多国际知名教授都很无私地把自己上课的视频放在youtube上免费学习。
比如,海德堡HCI 的Fred,图像处理课程:
https://www.youtube.com/playlist?list=PLuRaSnb3n4kSgSV35vTPDRBH81YgnF3Dd…
更详细回答,参见:
想学数据分析需要学哪些课程? - Ruobing Shen 的回答
关于我对最优化理论在咨询行业的应用,参见
Data Science/Analytics 出身,可以在咨询行业做些什么? - Ruobing Shen 的回答
最好按照惯例广告一波:
欧洲、北美、全球留学及数据科学深度私人定制咨询,从此DIY - Ruobing Shen的文章 - 知乎专栏
编辑于 2016-09-15
夏至
数据分析师@阿里巴巴
数据分析方面,推荐一本书吧:大前研一写的《思考的技术》。
一切分析(包含数据分析)的目标,肯定是为了展示、定位和解决问题,而发现问题的过程,要遵循严格的逻辑(业务逻辑、商业逻辑等)。大前的这本书不会教你数据分析的“术”,但是会教你解决问题的逻辑。而这是数据分析的出发点。
如果时间有限,这本书可以只看前半部分。
发布于 2016-08-14
张大万
学数学的!
给自己打个广告吧,结合自己多年工作经验写的!
《从1开始 数据分析师成长之路》
相较于通俗读物类的数据分析更加专业化,也不像舶来品那样不接地气。
书本小样:https://pan.baidu.com/s/1jIymBKM…
各大电商网站均有销售。
编辑于 2017-01-09
数据小人
略懂,略懂,数据分析
最近整理的关于数据分析师的工作内容及知识体系:知乎专栏
发布于 2016-11-26
刘一鸣
MTk2MjU4
怎么感觉像卖书的软文,第一批的8和10是需要好好研究的。
第二批的有一半没看过。主要是越看越觉得偏数学,现在干脆就直接学数学了。
数学的教材和资料网上到处都是,coursera,udacity, khan academy 都有很多,mit open course甚至有全套的。
如果只是基本应用的话, 可以从第二批的3,10,11入手,3用的是R语言讲的。
发布于 2013-12-25
Pei
中美Business Analytics从业人员/Fintech
我是最近三年在美国进入到数据分析领域的。这个领域变化很快,我来推荐几本目前在美国比较火的、自己看过也受益匪浅的。
如果是Business背景想入门数据分析我推荐Data Science For Business。
如果是通过R来学数据分析的话 推荐 R in Action和Practical Data Science with R.
发布于 2016-12-24
rainer wang
吃冰大师
推荐一本书《Python Machine Learning》,目前已经看完了chapter1-7、chapter10。全书共13个章节。
————————————————————————————————————————————————————————————————
该书主要使用sklearn的class来训练、评估算法以及调整参数。使用sklearn实现算法前,作者多会自己写个简单的算法实现帮助理解。
该书源代码都是用Python语言写的,因此需要一定的Python基础,另外算法的训练数据多是矩阵形式的,需要对线性代数有一定的了解,如果之前就有Matlab矩阵运算的基础就更好了。
该书另一大特色就是数据的可视化,使用matplotlib库进行原始数据的探索、learning curve以及validation curve的可视化、模型评估中ROC曲线的可视化、residual(残差)的可视化等等。
各章节的简单介绍(请尊重作者的劳动成果,购买正版。):
chapter 1. Giving Computers the Ability to Learn from Data
简单介绍了三种不同类型的机器学习:使用supervised learning进行预测、使用reinforcement learning解决交互问题以及使用unsupervised learning发现隐藏的数据结构,介绍了数据挖掘基本的术语和符号以及构建机器学习系统的roadmap。
chapter 2. Training Machine Learning Algorithms for Classification
介绍了Artificial neurons、perceptron(局限性比较大的感知机算法)和Adaptive linear neurons算法(使用gradient descent也就是梯度下降来最小化cost function)以及具体的算法实现。
chapter 3. A Tour of Machine Learning Classifiers Using Scikit-learn
介绍了各种分类算法以及具体的实现:算法包括Logistic regression、support vector machines、kernel support vector machines(用来解决非线性问题)、decision tree learning(CART)、K-nearest neighbors。其中作者还穿插介绍了各算法的优缺点。
Chapter 4. Building Good Training Sets – Data Preprocessing
介绍了如何进行数据的预处理,包括缺失值处理,分类数据的处理、样本数据的拆分(按一定比例随机拆分为training set和test set)、基于min-max scaling以及 standardize的features scaling(特征缩放)、基于L1 regularization spare matrix以及Sequential backward selection(SBS)的 feature selecting(特征的取舍)、使用random forest来评估各feature的重要程度
Chapter 5. Compressing Data via Dimensionality Reduction
介绍了使用PCA(Principal component analysis)以及LDA(linear discriminant analysis)来进行降维,使用kernel pca来进行非线性的映射。
要去搬砖了。待续。
————————————————————————————————————————————————————————————————
关于作者Sebastian Raschka:
Sebastian Raschka is a PhD student at Michigan State University, who develops new computational methods in the field of computational biology. He has been ranked as the number one most influential data scientist on GitHub by Analytics Vidhya. He has many years of experience with coding in Python and he has conducted several seminars on the practical applications of data science and machine learning. Talking and writing about data science, machine learning, and Python really motivated Sebastian to write this book in order to help people develop data-driven solutions without necessarily needing to have a machine learning background.
该书的亚马逊网站链接:
https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka/dp/1783555130/ref=sr_1_1?ie=UTF8&qid=1484186060&sr=8-1&keywords=python+machine+learning…
https://www.amazon.cn/dp/B00YSILNL0/ref=sr_1_1?ie=UTF8&qid=1484186381&sr=8-1&keywords=python+machine+learning…
亚马逊中国上这本书有kindle电子书版的,100多块,电脑下个kindle软件就可以看了,kindle软件能做笔记,划重点。纸质书要500多块。
美国亚马逊该书的截图如下(外文书可以先到亚马逊上看看评价):
————————————————————————————————————————————————————————————————
需要的软件支持:Anaconda
Anaconda下载地址:https://www.continuum.io/downloads, 外国网站下载会比较慢,可以将下载链接复制后在迅雷离线中打开即可快速下载。
下载安装Anaconda后,会自动安装好Spyder,可以用来运行python程序。Anaconda已经自动安装了pandas、sklearn、matplotlib、 numpy、scipy之类的数据挖掘包。
————————————————————————————————————————————————————————————————
编辑于 2017-01-12
thinkheaven
想做学术研究而不得
个人觉得Pattern Recognition And Machine Learning这本书,绝对是经典中的经典,值得从事有关机器学习研究和应用的朋友们,好好研读
当然,现在必须增加一个,周志华老师最新出版《机器学习》(南大周志华的《机器学习》这本书怎么样? - 计算机)
编辑于 2016-02-24
Alex丨Jessica
发布于 2014-02-01
itlr
https://www.linkev.com/?a_aid=itlr…
The Signal and the Noise: Why So Many Predictions Fail—but Some Don’t
发布于 2015-09-03
何史提
物理学、理论物理、量子物理 话题的优秀回答者
- Bishop, Pattern Recognition and Machine Learning
- Manning, Raghaven, Schutz, Introduction to Information Retrieval
- Janert, Data Analysis with Open Source Tools
- Segaran, Programming Collective Intelligence
- Hastie, Tibshirani, Friedman, The Elements of Statistical Learning
发布于 2014-01-03
夏尔
回答一个用python的:想一边看书一边敲代码马上出结果的看这里:不得不提《用python进行数据分析》,对着习题练一遍,马上出效果,然后拿自己感兴趣的数据来练手,照葫芦画瓢,上手极快,且容易有成就感。一看见有人的回答是列书单我就烦。看完给你一堆数据你会处理吗?学这种东西就是要直接上项目、解决问题。BTW,我在学习过程中发现复旦大学物理实验室的对这本书学习的相关资料——利用python进行数据分析 [|home|] ——感觉比原书更易懂,(主要是想快速学习又懒得一次次敲代码的话这里有源码……)兹分享,共勉。
编辑于 2015-12-28
已使用 Microsoft OneNote 2016 创建。