Data Mining & Data Science - 其他 - 《Datapedia》

信息检索
推荐系统
NLP 自然语言处理
- 书籍
- 课程
数字图像与机器视觉
- 书籍
- 课程
人工智能与机器学习
- 书籍
  - 游戏AI
- 课程
其他

信息检索

《An Introductionto Information Retrieval》,Manning著这是一本介绍信息检索的入门书籍，书中对信息检索的基本概念和基本算法做了介绍，适合初学者。
《Search Engines Information Retrieval in Practice》,Croft著这本书讲述了搜索引擎的构造方法，通过实际代码展示了搜索引擎的工作原理，对于学生和从事相关领域的工程师，本书都值得一看。
《Managing Gigabytes》
《Mining the Web -Discovering Knowledge from Hypertext Data》
《Information Theory：Inference and Learning Algorithms》。
Algorithms of Intelligent Web 作者是Haralambos Marmanis和Dmitry Babenko，前者是用机器学习解决工业问题的先驱，后者参与设计了用于银行、保险和供应链管理的应用程序。本书会让你学会该如何捕获、存储和构建网络中的用户数据，并通过数理统计、神经网络和深度学习等方法实现数据分类，进而构建推荐系统。本书还提供了如在线广告的点击预测等案例分析，附有相关代码。

NLP 自然语言处理

书籍

Python自然语言处理
语音与语言处理 SPEECH AND LANGUAGE PROCESSING
本书涵盖了经典自然语言处理、统计自然语言处理、语音识别和计算语言学等方面。聊天机器人、智能问诊和对话系统等让语音和语言处理成为21世纪最令人兴奋的一个研究内容。本文采用统计学方法和其他机器学习算法，通过实例来说明各种方法的相对优势和不足，分别涉及序列标注、信息提取、智能问答、语音识别和语音合成等多个前沿研究方向。对于语音学领域专业人员，这是一本重要的参考书籍。
Foundations of Statistical Natural Language Processing
这是国内外多所著名大学的计算语言学教材，全面系统地介绍了统计自然语言处理技术。本书涵盖的内容十分广泛，包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深，从数学基础到精确的理论算法，从简单的词法分析到复杂的语法分析，适合不同水平的读者群的需求。

课程

牛津大学xDeepMind自然语言处理 https://www.bilibili.com/video/av9817911/ 这是牛津大学 & DeepMind 联合的面向NLP的深度学习应用课程。课程介绍了相关机器学习模型的数学定义，并推导出相关的优化算法。该课程涵盖神经网络在NLP中的一系列应用，包括分析文本中的潜在维度、将语音转录到文本、在语言之间进行转换以及回答问题。这些主题被组织成三个高层次的主题，从理解使用神经网络的顺序语言建模，到理解它们作为转导任务的条件语言模型的使用，以及最终将这些技术与其他高级应用程序结合使用的方法。在整个过程中，还将讨论这些模型在CPU和GPU硬件上的实际实现。

数字图像与机器视觉

书籍

《Computer Vision: A Modern Approach》，第二版，Forsyth著

一本不错的计算机视觉教材，全书理论联系实际，并加入了计算机视觉领域的最新研究成果。

《Computer Vision: Algorithms and Applications》,Richard Szeliski的大作

《数字图像处理》课程老师推荐的一本书籍，这本书我还没有看完，书中对计算机视觉领域最新的一些算法进行了汇编，包括图像分割，特征检测和匹配，运动检测，图像缝合，3D重建，对象识别等图像处理的诸多方面，借助本书我们可以对最新主流图像处理算法有个全局把握。

Learning OpenCV
本书适合对计算机视觉和图像处理有基本了解的人群，通过本书能更好地了解OpenCV如何让编程任务更容易。

课程

李飞飞深度学习机器视觉 http://cs231n.github.io/ 网易云课题，或者使用bilibili的源

人工智能与机器学习

书籍

机器学习周志华
机器学习 Machine Learning for Hackers
Deep Learning Book by Ian Goodfellow and Yoshua Bengio and Aaron Courville，英文版本，中文版本
《Artificial Intelligence: A Modern Approach》，第三版，Russell著，权威、经典的人工智能教材，阐述了人工智能的核心内容，反映了人工智能最近10年来的新进展。
《ProgrammingCollective Intelligence》，Toby Segaran著，本书将带你进入机器学习和统计学的世界，对算法的描述简明清晰，很对代码都可以直接拿去实际应用。
Richard O. Duda的《模式分类》这本书是力荐，很多高校的数据挖掘导论课程的教科书便是这本（也是我的数据挖掘入门书，很有感情的）。如果你不通读这本书，你会发现在你研究很多问题的时候，甚至一些相对简单的问题（比如贝叶斯在高斯假设下为什么退化成线性分类器）都要再重新回头读这本书。
Christopher M. Bishop的《Pattern Recognition And Machine Learning》这本书也是经典巨著，整本书写的非常清爽。
《The Elements of Statistical Learning》这本书豆友有句很好的吐槽“机器学习 — 从入门到精通”可以作为这本书的副标题。可以看出这本书对于机器学习进阶的重要性。值得一说的是这本书虽然有中文版，但是翻译之烂也甚是有名，听说是学体育的翻译的。
《Pattern Classification 》，第二版，Duda著，
模式识别的奠基之作，但对SVM、Boosting几乎没提，有挂一漏万之嫌。
《Pattern Recognition and Machine Learning》,Bishop著，
侧重概率模型，详细介绍了Bayesian方法、有向图、无向图理论等，体系完备。
《Kernel Methods for Pattern Analysis》,John Shawe-Taylor著，
SVM等统计学的诸多工具里都用到了核方法，可以将将低维非线性空间映射到高维的线性空间中，但同时会引入高维数据的难题。
The Elements of Statistical Learning 这本书有对应的中文版：统计学习基础。书中配有 R 包，非常赞！可以参照着代码学习算法。
统计学习方法李航老师的扛鼎之作，强烈推荐。难易程度：难。
https://github.com/fengdu78/lihang-code
Machine Learning 去年出版的新书，作者 Kevin Murrphy 教授是机器学习领域中年少有为的代表。这书是他的集大成之作，写完之后，就去 Google 了，产学研结合，没有比这个更好的了。
Machine Learning 这书和上面的书不是一本！这书叫：Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材，由于配有代码，所以理解起来比较容易。
Pattern Recognition And Machine Learning 经典中的经典。
Bayesian Reasoning and Machine Learning 看名字就知道了，彻彻底底的 Bayesian 学派的书，里面的内容非常多，有一张图将机器学习中设计算法的关系总结了一下，很棒。
Probabilistic Graphical Models 鸿篇巨制，这书谁要是读完了告诉我一声。
Convex Optimization 凸优化中最好的教材，没有之一了。课程也非常棒，Stephen 老师拿着纸一步一步推到，图一点一点画，太棒了。
Tom Mitchell的《机器学习》
Machine Learning in Action

用人话把复杂难懂的机器学习算法解释清楚了，其中有零星的数学公式，但是是以解释清楚为目的的。而且有 Python 代码，大赞！目前中科院的王斌老师（微博：王斌_ICTIR）已经翻译这本书了机器学习实战。这本书本身质量就很高，王老师的翻译质量也很高。难易程度：中。我带的研究生入门必看数目之一！

Building Machine Learning Systems with Python 虽然是英文的，但是由于写得很简单，比较理解，又有 Python 代码跟着，辅助理解。
Machine Learning for Hackers 也是通过实例讲解机器学习算法，用 R 实现的，可以一边学习机器学习一边学习 R。
Introduction to Semi-Supervised Learning 半监督学习必读必看的书。
Graphical Models, Exponential Families, and Variational Inference 这个是 Jordan 老爷子和他的得意门徒 Martin J Wainwright 在 Foundation of Machine Learning Research 上的创刊号，可以免费下载，比较难懂，但是一旦读通了，graphical model 的相关内容就可以踏平了。
Natural Language Processing with Python NLP 经典，其实主要是讲 NLTK 这个包，但是啊，NLTK 这个包几乎涵盖了 NLP 的很多内容了啊！
Learning to Rank for Information Retrieval 微软亚院刘铁岩老师关于 LTR 的著作，啥都不说了，推荐！
Learning to Rank for Information Retrieval and Natural Language Processing 李航老师关于 LTR 的书，也是当时他在微软亚院时候的书，可见微软亚院对 LTR 的研究之深，贡献之大。
An Introduction to Statistical Learning: with Applications in R（看完了）通过R讲解算法的统计学习入门书，估计被推荐烂了（笑）。可以在这本书的网站上找到这本书的pdf和数据集。http://www-bcf.usc.edu/~gareth/ISL/ 相关课程 https://lagunita.stanford.edu/courses/HumanitiesSciences/StatLearning/Winter2016/about
Applied Predictive Modeling（看完了）黄皮书，没啥好多说的。准备面试和工作的时候必读。
Python Machine Learning（基本上看完了）手把手教你用sklearn做机器学习，同样是工作必备。
Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies（看了一半）我觉得这本书特别适合我这种脑子不太好的人，因为他会把机器学习算法拆开，结合案例，一步一步地给你讲。
Real-World Machine Learning（看完了）告诉你工业界的人怎么用Machine Learning解决实际问题的书。建议所有Data Scientist在实习前和全职工作开始前都读一下。
Learning From Data（看完了）这本书讲清楚了很多机器学习书中不怎么提到的机器学习理论，比如VC Dimension这种东西。Caltech有公开课，吐血推荐：https://work.caltech.edu/telecourse.html
The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition（看了一半）大名鼎鼎的ESL，读起来比较累（我太渣），我觉得适合翻查和摘抄。https://statweb.stanford.edu/~tibs/ElemStatLearn/
Pattern Recognition and Machine Learning（正在看）同样大名鼎鼎的PRML，我个人觉得比ESL好读不少。
《Statistical Learning Theory》
Vapnik的大作，统计学界的权威，本书将理论上升到了哲学层面，他的另一本书《The Nature ofStatistical Learning Theory》也是统计学习研究不可多得的好书，但是这两本书都比较深入，适合有一定基础的读者。
《统计学习方法》，李航著
国内很多大学都在用这本书，本书从具体问题入手，由浅入深，简明地介绍了统计学习的主要方法，适合初学者而又想对统计学习理论有一个全局理解的学生。
《The Elements of Statistical Learning-Data Mining, Inference, and Prediction》,第二版，Trevor Hastie著
机器学习方面非常优秀的一本书，较PC和PRML,此书更加深入，对工程人员的价值也许更大一点。
《AnIntroduction to Probabilistic Graphical Models》,Jordan著
本书介绍了条件独立、分解、混合、条件混合等图模型中的基本概念，对隐变量（潜在变量）也做了详细介绍，相信大家在隐马尔科夫链和用Gaussian混合模型来实现EM算法时遇到过这个概念。
《Probabilistic Graphical Models-Principles and Techniques》，Koller著
一本很厚很全面的书，理论性很强，可以作为参考书使用。

游戏AI

Programming Game AI by Example
本书是游戏人工智能方面的经典之作，畅销多年，主要讲述如何使游戏中的角色具有智能，先介绍了游戏角色的基本属性及常用数学方法，接着深入探讨游戏智能体状态机的实现，提到了图在游戏中的用途及各种不同的图搜索算法，还以Lua脚本语言为例来介绍了游戏脚本语言的优点。
AI Game Programming Wisdom
读者可以把这本书当成路线图，了解在智能游戏方面已经被成功使用的技术和在将来具有很大潜力的新技术。

课程

[Coursera] Neural Networks for Machine Learning — Geoffrey Hinton 2016
Machine Learning Course - CS 156
This is an introductory course by Caltech Professor Yaser Abu-Mostafa on machine learning that covers the basic theory, algorithms, and applications. Machine learning (ML) enables computational systems to adaptively improve their performance with experience accumulated from the observed data. ML techniques are widely applied in engineering, science, finance, and commerce to build systems for which we do not have full mathematical specification (and that covers a lot of systems). The course balances theory and practice, and covers the mathematical as well as the heuristic aspects.
Stanford University Ng machine learning，或者使用网易的源，或者使用斯坦福的源
深度学习工程师网易云课堂
Machine Learning Category on VideoLectures.Net（VideoLectures.Net上的机器学习分类）：初学者很容易沉溺于海量的内容中。你可以找寻一些看起来比较有趣的视频，然后尝试看看。如果不是你现阶段能看懂的，就先放放。如果你看着合适，就记笔记。我发现我自己总是不断的找寻自己感兴趣的标签，然后最终选择了完全不同的标签。当然，看看该领域专家真正是什么样的也挺好的。
http://introtodeeplearning.com/
MIT 6.S099: Artificial General Intelligence（通用人工智能），官方介绍该课程将采用工程方法探索建立人类智能的可能研究路径。
Theories of Deep Learning (STATS 385)
CS231n: Convolutional Neural Networks for Visual Recognition
https://www.youtube.com/playlist?list=PLkt2uSq6rBVctENoVBg1TpCC7OQi31AlC
Getting In Shape For The Sport Of Data Science – Talk by Jeremy Howard：和一个本土R用户团队关于机器学习实践应用的对话，这个团队在机器学习竞赛中获取了很好的成绩。这个视频很有用，因为很少有人去讲将机器学习应用到一个项目中真正是什么样的，及怎么去做这个项目。我幻想着能创建一个网络真人TV秀，这样可以能直接看到选手机器学习竞赛中的表现。我是多么的向往啊。
MIT 6.S094: Deep Learning for Self-Driving Cars
Learning from Data 主讲人：Yaser Abu-Mostafa edX, 网易公开课
这是加州理工Yaser Abu-Mostafa教授关于机器学习的入门课，但内容并不简单。该课程强调数据，是因为机器学习与各领域的大数据处理应用（比如金融、医疗）联系十分紧密。这门课内容涵盖基础理论、算法和应用，平衡了理论与实践，既覆盖数学统计，也包含启发式的概念理解。不少人评论该课程结构就像讲故事，它有助于学习者形成对机器学习概念和模型深度、直觉性的理解。学习者公认它内容非常充实，但对作业模块的争议很大：有人认为难度偏高并且缺乏反馈，有人认为它是网上能找到的、最好的机器学习练习。
Machine Learning Tom Mitchell CMU 官网
这门课是学界人士的最爱，是入门课程之中较全面、高阶的一门，覆盖的话题非常广，按先后次序包括：代数和概率论，机器学习的基础工具，概率图模型，AI，神经网络，主动学习，增强学习。这门课程能帮助学习者理清机器学习的发展脉络。它适合计划进行系统性学习、投入大量时间的人。对于初学者，建议至少听完吴恩达的机器学习课程之后，再修这一门。
华盛顿大学机器学习

其他

运筹学教材推荐 https://www.zhihu.com/question/24620225/answer/1852522362

其他

信息检索

推荐系统

NLP 自然语言处理

书籍

课程

数字图像与机器视觉

书籍

课程

人工智能与机器学习

书籍

游戏AI

课程

其他