根据网络上其他人的学习方案调整,内带资源


基本思路:
前期:知识储备包括数学知识,机器学习经典算法知识
中期:算法的python代码实现
后期:实战水平提升

1、数学基础

1.1、数学内容

线性代数:
统计与概率:
高等数学(微积分):
优化:
信息论:
数值理论:

统计学入门教材:深入浅出统计学
进阶教材:商务与经济统计
推荐视频:可汗学院统计学

2、算法知识

2.1、python 工具

NumPy 是 Python 语言的一个扩展程序库, 支持大量的维度数组与矩阵运算, 此外也针对数组运算提供大量的数学函数库。
NumPy 中文文档 NumPy 学习
Pandas 是一个强大的分析结构化数据的工具集
Pandas 中文文档 Pandas 学习思维导图
Matplotlib 是一个 Python 的 2D 绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。
Matplotlib 中文文档
Statsmodels 提供对许多不同统计模型估计的类和函数, 并且可以进行统计测试和统计数据的探索。
Statsmodels 中文文档
Seaborn 是基于 matplotlib 的图形可视化 python 包。它提供了一种高度交互式界面, 便于用户能够做出各种有吸引力的统计图表。
seaborn 0.9 中文文档 https://www.9j6.cn/post/104557.html

2.2、python补充知识

算法包括机器学习和深度学习,机器学习是深度学习的基础。所以务必先学机器学习的经典算法,再学深度学习的算法。
代码规范:
numpy 练习题:
pandas 练习题:

2.3、数据分析/挖掘

书:利用python进行数据分析

3、机器学习

3.1、课程资料

浙大python 人工智能课 :

3.2、配套书籍

《机器学习实战》

李航《统计学习方法》
讲课 PPT:https://github.com/fengdu78/lihang-code/tree/master/ppt
读书笔记:http://www.cnblogs.com/limitlessun/p/8611103.html https://github.com/SmirkCao/Lihang
参考笔记:https://zhuanlan.zhihu.com/p/36378498
代码实现:https://github.com/fengdu78/lihang-code/tree/master/code

周志华《机器学习》
读书笔记:https://www.cnblogs.com/limitlessun/p/8505647.html#_label0
公式推导:https://datawhalechina.github.io/pumpkin-book/#/
课后习题:https://zhuanlan.zhihu.com/c_1013850291887845376

《吴恩达上课笔记》 黄博士

https://zhuanlan.zhihu.com/p/51452802

4、深度学习

4.1、课程资料

斯坦福CS231,李飞飞教授的。这门课的课程,课后习题,堪称完美。必须必须看。整个系列下来,特别是课后的习题要做,做完之后你会发现,哇哦!它的课后习题就是写代码来实现算法的。这个在网易云课堂上有。
视频地址:http://study.163.com/course/introduction.htm?courseId=1004697005
课程笔记翻译,知乎专栏:https://zhuanlan.zhihu.com/p/21930884
墙裂建议要阅读这个知乎专栏,关于怎么学这门课,这个专栏写的很清楚。
课后作业配套答案:https://blog.csdn.net/bigdatadigest/article/category/7425092

《程序员深度学习实战》:https://edu.csdn.net/course/detail/5192
英文笔记
https://medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-1-602f
汉化笔记
https://github.com/apachecn/fastai-ml-dl-notes-zh

吴恩达:CS230

4.2、配套书籍

《深度学习》(花书)

复旦教授邱锡鹏开源发布《神经网络与深度学习》

《深度学习 500 问》
项目地址:https://github.com/scutan90/DeepLearning-500-questions

工具 TensorFlow 官方文档学深度学习一定离不开 TensorFlow
官方文档:https://www.tensorflow.org/api_docs/python/tf
中文文档:https://github.com/jikexueyuanwiki/tensorflow-zh

工具 PyTorch 官方文档 PyTorch 是学深度学习的另一个主流框架
官方文档:https://pytorch.org/docs/stable/index.html
中文文档 (版本 0.3):https://github.com/apachecn/pytorch-doc-zh

5、强化学习

5.1、课程资料

公开课 Reinforcement Learning-David Silver 与吴恩达的课程对于机器学习和深度学习初学者的意义相同,David Silver 的这门课程绝对是大多数人学习强化学习必选的课程。
视频地址 :https://www.bilibili.com/video/av45357759?from=search&seid=9547815852611563503
课程资料
课程 PPT:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
课程笔记:https://www.zhihu.com/people/qqiang00/posts

公开课李宏毅《深度强化学习》
视频地址 https://www.bilibili.com/video/av24724071?from=search&seid=9547815852611563503
课程 PPT:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
课程笔记:https://blog.csdn.net/cindy_1102/article/details/87905272

6、实战部分

6.1、实战基础

这一个阶段,你要开始用tensorflow(谷歌的深度学习框架)、scikit-learn(python的机器学习框架),这两个框架极大程度地集成了各大算法。其实上面在学习cs231n的时候你就会用到一部分。

scikit-learn的学习:http://sklearn.apachecn.org/cn/0.19.0/
官方代码:https://github.com/ageron/handson-ml
这是scikit-learn的官方文档中文版翻译,有理论有实战,最好的库学习资源,没有之一。认真看,传统的机器学习就是用这个库来实现的。

Tensorflow的学习:https://tensorflow.google.cn/api_docs/python/?hl=zh-cn
官方文档很详尽,还有实战例子,学习tensorflow的不二之选

书籍《Scikit-Learn 与 TensorFlow 机器学习实用指南》在经过前面的学习之后,这本《Scikit-Learn 与 TensorFlow 机器学习实用指南》非常适合提升你的机器学习实战编程能力。

这本书分为两大部分,第一部分介绍机器学习基础算法,每章都配备 Scikit-Learn 实操项目;第二部分介绍神经网络与深度学习,每章配备 TensorFlow 实操项目。如果只是机器学习,可先看第一部分的内容。

全书代码:

https://github.com/ageron/handson-ml

6.2、实战进阶

仅仅看这两个教程是不够的,你需要更多地去应用这两个库。
接下来推荐一部神书,机器学习和深度学习的实战教学,非常非常的棒,网上有很多号称实战的书或者例子,我看了基本就是照搬官网的,只有这一本书,是完全按照工业界的流程解决方案进行实战,你不仅能学习到库的应用,还能深入了解工业界的流程解决方案,最好的实战教学书,没有之一。书名是hands-on-ml-with-sklearn-and-tf
链接:https://pan.baidu.com/s/1x318qTHGt9oZKQwHkoUvKA 密码:xssj

6.3、实战最终阶段

kaggle数据竞赛,如果你已经学到了这一步,恭喜你离梦想越来越近了:对于我们初学者来说,没有机会接触到机器学习真正的应用项目,所以一些比赛平台是我们不错的选择。参加kaggle竞赛可以给你的简历增分不少,里面有入门级别到专家级别的实战案例,满足你的各方面需求。如果你能学到这一步了,我相信也不需要再看这个了。

7、前沿知识

Papers with Code(Sorted by stars)
这份资源收集了 AI 领域从 2013 - 2018 年所有的论文,并按照在 GitHub 上的标星数量进行排序。
GitHub 项目地址:https://github.com/zziz/pwc

3Deep Learning Papers 阅读路线如果你是深度学习领域的新手,你可能会遇到的第一个问题是 “我应该从哪篇论文开始阅读?” 下面是一个深入学习论文的阅读路线图!
GitHub 项目地址:
https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap

这份深度学习论文阅读路线分为三大块:
1 Deep Learning History and Basics
2 Deep Learning Method
3 Applications
4Deep Learning Object Detection 目标检测(Object Detection)是深度学习 CV 领域的一个核心研究领域和重要分支。纵观 2013 年到 2019 年,从最早的 R-CNN、Fast R-CNN 到后来的 YOLO v2、YOLO v3 再到今年的 M2Det,新模型层出不穷,性能也越来越好!
本资源对目标检测近几年的发展和相关论文做出一份系统介绍,总结一份超全的文献 paper 列表。
GitHub 项目地址:https://github.com/hoya012/deep_learning_object_detection

所有算法的论文分类
https://paperswithcode.com/sota

8、实际应用

8.1、自然语言处理(NLP)

自然语言处理(NLP,Natural Language Processing)是研究计算机处理人类语言的一门技术,目的是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。NLP包含句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统和对话系统等领域。

8.1.1、课程推荐

CS224n 斯坦福深度自然语言处理课
17版中文字幕:https://www.bilibili.com/video/av41393758/?p=1
课程笔记:http://www.hankcs.com/?s=CS224n笔记
2019版课程主页:http://web.stanford.edu/class/cs224n/

自然语言处理 - Dan Jurafsky 和 Chris Manning
B站英文字幕版:https://www.bilibili.com/video/av35805262/
学术激流网:http://academictorrents.com/details/d2c8f8f1651740520b7dfab23438d89bc8c0c0ab

8.1.2、书籍推荐

Python自然语言处理
入门读物,整本书不仅涉及了语料库的操作,也对传统的基于规则的方法有所涉及。全书包括了分词(tokenization)、词性标注(POS)、语块(Chunk)标注、句法剖析与语义剖析等方面,是nlp中不错的一本实用教程。

自然语言处理综论

By Daniel Jurafsky和James H. Martin
本书十分权威,是经典的NLP教科书,涵盖了经典自然语言处理、统计自然语言处理、语音识别和计算语言学等方面。
统计自然语言处理基础
By Chris Manning和HinrichSchütze
更高级的统计NLP方法,在统计基本部分和n元语法部分介绍得都很不错。

我爱自然语言处理
地址:http://www.52nlp.cn/
TFIDF、文档相似度等等在这个网站上都有通俗易懂的解释。

语言日志博客(Mark Liberman)
地址:http://languagelog.ldc.upenn.edu/nll/

natural language processing blog
地址:https://nlpers.blogspot.com/

开源NLP工具包
中文NLP相关:https://github.com/crownpku/Awesome-Chinese-NLP

英文NLP相关:
NLTK: http://www.nltk.org/
TextBlob: http://textblob.readthedocs.org/en/dev/
Gensim: http://radimrehurek.com/gensim/
Pattern: http://www.clips.ua.ac.be/pattern
Spacy: http://spacy.io
Orange: http://orange.biolab.si/features/
Pineapple: https://github.com/proycon/pynlpl

100 Must-Read NLP Papers
https://github.com/mhagiwara/100-nlp-papers

8.1.3、项目推荐

基于LSTM的中文问答系统
https://github.com/S-H-Y-GitHub/QA

基于RNN的文本生成器
https://github.com/karpathy/char-rnn

基于char-rnn的汪峰歌词生成器
https://github.com/phunterlau/wangfeng-rnn

用RNN生成手写数字
https://github.com/skaae/lasagne-draw

8.2、计算机视觉

计算机视觉的应用:无人驾驶无人安防人脸识别车辆车牌识别以图搜图VR/AR3D重构无人机医学图像分析

8.2.1、课程推荐

Stanford CS223B
比较适合基础,适合刚刚入门的同学,跟深度学习的结合相对来说会少一点,不会整门课讲深度学习,而是主要讲计算机视觉,方方面面都会讲到。

8.2.2、书籍推荐

入门学习:《Computer Vision:Models, Learning and Inference》

经典权威的参考资料:《Computer Vision:Algorithms and Applications》

理论实践:《OpenCV3编程入门》

8.3、推荐系统

推荐系统就是自动联系用户和物品的一种工具,它能够在信息过载的环境中帮助用户发现令他们感兴趣的信息,也能将信息推送给对它们感兴趣的用户。推荐系统属于资讯过滤的一种应用。

8.3.1、课程推荐

推荐系统专项课程《Recommender Systems Specialization》
这个系列由4门子课程和1门毕业项目课程组成,包括推荐系统导论,最近邻协同过滤,推荐系统评价,矩阵分解和高级技术等。
观看地址:https://www.coursera.org/specializations/recommender-systems

8.3.2、书籍推荐

《推荐系统实践》(项亮 著)
《推荐系统》(Dietmar Jannach等 著,蒋凡 译)
《用户网络行为画像》(牛温佳等 著)
《Recommender Systems Handbook》(Paul B·Kantor等 著)

LibRec
LibRec是一个Java版本的覆盖了70余个各类型推荐算法的推荐系统开源算法库,由国内的推荐系统大牛郭贵冰创办,目前已更新到2.0版本,它有效地解决了评分预测和物品推荐两大关键的推荐问题。
项目地址:https://github.com/guoguibing/librec
官网地址:https://www.librec.net/

LibMF
C++版本开源推荐系统,主要实现了基于矩阵分解的推荐系统。针对SGD(随即梯度下降)优化方法在并行计算中存在的 locking problem 和 memory discontinuity问题,提出了一种 矩阵分解的高效算法FPSGD(Fast Parallel SGD),根据计算节点的个数来划分评分矩阵block,并分配计算节点。
项目地址:http://www.csie.ntu.edu.tw/~cjlin/libmf/

SurPRISE
一个Python版本的开源推荐系统,有多种经典推荐算法。
项目地址:http://surpriselib.com/

Neural Collaborative Filtering
神经协同过滤推荐算法的Python实现。
项目地址:https://github.com/hexiangnan/neural_collaborative_filtering

Crab
基于Python开发的开源推荐软件,其中实现有item和user的协同过滤。
项目地址:http://muricoca.github.io/crab/

经典论文
https://github.com/hongleizhang/RSPapers

8.3.3、常用数据集

MovieLen
https://grouplens.org/datasets/movielens/
MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法。小规模的库是943个独立用户对1 682部电影作的10 000次评分的数据;大规模的库是6 040个独立用户对3 900部电影作的大约100万次评分。适用于传统的推荐任务。

Douban
https://www.cse.cuhk.edu.hk/irwin.king.new/pub/data/douban
Douban是豆瓣的匿名数据集,它包含了12万用户和5万条电影数据,是用户对电影的评分信息和用户间的社交信息,适用于社会化推荐任务。

BookCrossing
http://www2.informatik.uni-freiburg.de/~cziegler/BX/
这个数据集是网上的Book-Crossing图书社区的278858个用户对271379本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。

8.3.4、项目实战

今日头条推荐系统机制介绍,面向内容创作者。分享人:项亮,今日头条推荐算法架构师:
https://v.qq.com/x/page/f0800qavik7.html?

3分钟了解今日头条推荐系统原理:
https://v.qq.com/x/page/g05349lb80j.html?

facebook是如何为十亿人推荐好友的:
https://code.facebook.com/posts/861999383875667/recommending-items-to-more-than-a-billion-people/

Netflix的个性化和推荐系统架构:
http://techblog.netflix.com/2013/03/system-architectures-for.html

8.4、风控模型(评分卡系统)

评分卡模型时在银行、互金等公司与借贷相关业务中最常见也是最重要的模型之一。简而言之它的作用就是对客户进行打分,来对客户是否优质进行评判。
根据评分卡模型应用的业务阶段不用,评分卡模型主要分为三大类:A卡(Application score card)申请评分卡、B卡(Behavior score card)行为评分卡、C卡(Collection score card)催收评分卡。其中申请评分卡用于贷前,行为评分卡用于贷中,催收评分卡用于贷后,这三种评分卡在我们的信贷业务的整个生命周期都至关重要。

8.4.1、书籍推荐

《信用风险评分卡研究——基于SAS的开发与实施》

8.5、知识图谱

知识图谱是一种结构化数据的处理方法,它涉及知识的提取、表示、存储、检索等一系列技术。从渊源上讲,它是知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合。

8.5.1、书籍推荐

为什么需要知识图谱?什么是知识图谱?——KG的前世今生:https://zhuanlan.zhihu.com/p/31726910

什么是知识图谱?https://zhuanlan.zhihu.com/p/34393554

智能搜索时代:知识图谱有何价值?https://zhuanlan.zhihu.com/p/35982177?from=1084395010&wm=9848_0009&weiboauthoruid=5249689143

百度王海峰:知识图谱是 AI 的基石:http://www.infoq.com/cn/news/2017/11/Knowledge-map-cornerstone-AI#0-tsina-1-5001-397232819ff9a47a7b7e80a40613cfe1

译文|从知识抽取到RDF知识图谱可视化:http://rdc.hundsun.com/portal/article/907.html?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

8.5.2、项目实战

基于知识图谱的问答:https://github.com/kangzhun/KnowledgeGraph-QA-Service

Agriculture_KnowledgeGraph:https://github.com/qq547276542/Agriculture_KnowledgeGraph