layout: post # 使用的布局(不需要改)
title: 自然语言处理必备知识整理 # 标题
subtitle: 自然语言处理必备知识整理 #副标题
date: 2019-01-01 # 时间
author: NSX # 作者
header-img: img/post-bg-2015.jpg #这篇文章标题背景图片
catalog: true # 是否归档
tags: #标签
- NLP
自然语言处理必备知识整理
入门
机器学习、深度学习、强化学习……刚入门的你是不是觉得这些概念很难区分?仔细读以下几篇文章,迈出 AI 之路第一步:
- 入门诗人般的机器学习ML 工作原理大揭秘
- 入门 机器学习第一课:决策树学习概述与实现
- 入门 献给新手的深度学习综述
- 这是一份「不正经」的深度学习简述
- 入门 强化学习的基本概念与代码实现
- 入门 从零开始,了解元学习
数学知识
数学在机器学习中非常重要,不论是在算法上理解模型代码,还是在工程上构建系统,数学都必不可少。2018 年,机器之心发布了多位「独秀同学」本着「再看不懂就 sǐ给你看」的态度写的数学知识解读,帮你完成从入门到精通(不放弃)的进阶之路。
- 入门 这是一份文科生都能看懂的线性代数简介
- 入门 10 个例子带你了解机器学习中的线性代数
- 入门 一文介绍机器学习中基本的数学符号
- 入门 初学机器学习:直观解读 KL 散度的数学概念
- 教程 如何理解 KL 散度的不对称性
- 观点 我们该如何学习机器学习中的数学
- 入门 机器学习中常用的损失函数你知多少?
- 专栏 从入门到高阶,读懂机器学习需要哪些数学知识(附网盘)
- 详解蒙特卡洛方法:这些数学你搞懂了吗?
- 资源 用 Python 和 NumPy 学习《深度学习》中的线性代数基础
- 资源 来自独秀同学的深度网络数学笔记,还不快收藏?
- 机器学习中的数学,这是一份新鲜出炉的热门草稿
教材/课程
当然,要成功入门 AI,读几篇文章、掌握一点碎片知识是远远不够的,以下课程、教材帮你系统梳理了入门所需的基础知识。
- 从基础概念到数学公式,这是一份 520 页的机器学习笔记(图文并茂)
- 资源 Bloomberg 推出在线免费课程:《机器学习基础》
- 一门面向所有人的人工智能公开课:MIT 6.S191,深度学习入门
- 资源 阿里发布免费深度学习课程:从感知机开始说起
- 新手福利:免费百页机器学习入门书
- 线性代数与张量?这本开放书籍帮你扫清通往 ML 的数学绊脚石
- 想回炉再造一波统计学?这本斯坦福大学教材也许能帮你
- 这是一本好玩的可视化统计概率入门书
读论文
学完了入门课程,是时候读一些论文了。但论文那么多,究竟怎么读?这里有两篇文章帮你解锁读论文的正确姿势。
实战
实战开始!Are you ready?
语言
Python
随着机器学习的兴起,Python 逐步成为了「最受欢迎」的语言。它简单易用、逻辑明确并拥有海量的扩展包,因此其不仅成为机器学习与数据科学的首选语言,同时在网页、数据爬取可科学研究等方面成为不二选择。此外,很多入门级的机器学习开发者都是随大流选择 Python(参见《人生苦短,为什么我要用 Python?》)。Stack Overflow 将 Python 称为「增长最快的主要编程语言」,Indeed.com 估计美国的 Python 开发人员平均年收入将超过 JavaScript 和 Java 的开发人员,达到 114,811 美元(参见《业界 2018 最流行的编程语言 Top 3(附薪资情况)》)。人生苦短,你还有什么理由不学 Python?
- 资源 开放 Python 书籍:一本短小精悍的初学者入门指南
- 资源 Python 技巧 101:这 17 个骚操作你都 Ok 吗
- WTF Python:有趣且鲜为人知的 Python 特性
- 这些 Python 代码技巧,你肯定还不知道
- 资源 忘了 Python 关键语句?这份备忘录拯救你的记忆
- 世界上最好的 Python 编辑器是什么?我投 PyCharm 一票
- 入门 一文带你了解 Python 集合与基本的集合运算
- 资源 一个 Python 特征选择工具,助力实现高效机器学习
- 教程 入门 Python 神经机器翻译,这是一篇非常精简的实战指南
- 资源 让你事半功倍的小众 Python 库
- 码如其人,同学你能写一手漂亮的 Python 函数吗
- 除了冒泡排序,你知道 Python 内建的排序算法吗?
- 业界 四大机器学习编程语言对比:R、Python、MATLAB、Octave
框架
深度学习是机器学习领域最热门的方向之一,而 Python 又是深度学习使用的热门语言,因此,能兼容 Python 的框架非常值得学习。下面我们将介绍两份框架学习教程。
TensorFlow
Kaggle 上的一份排行榜从领英职位需求、谷歌搜索热度、Medium 文章数、arXiv 论文数和 GitHub 活跃度等方面审视了不同的框架,发现 TensorFlow;) 是绝对赢家。在 GitHub 活跃度、谷歌搜索、Medium 文章数、亚马逊书籍和 arXiv 论文这些数据源上,它所占的比重都是最大的。此外,TensorFlow 还拥有最多的开发者用户,出现在最多的在线职位描述中。因此,框架还要从 TensorFlow 学起。
- 入门 关于 TensorFlow,你应该了解的 9 件事
- 令人困惑的 TensorFlow!
- 令人困惑的 TensorFlow!(II)
- 揭秘框架的本源:开源中文书「TensorFlow 内核剖析」
- 教程 如何在 TensorFlow 中高效使用数据集
- 学习了!谷歌今日上线基于 TensorFlow 的机器学习速成课程(中文版)
- 从框架优缺点说起,这是一份 TensorFlow 入门极简教程
- 资源 英语不行?你可以试试 TensorFlow 官方中文版教程
- 入门 TensorFlow 的动态图工具 Eager 怎么用?这是一篇极简教程
- 教程 如何在 Tensorflow.js 中处理 MNIST 图像数据
- 资源 TensorFlow 推出新工具 Seedbank:即刻使用的预训练模型库
- TensorFlow 发布重要更新 AutoGraph,自动将 Python 转化为 TF 计算图
PyTorch
自 2017 年 1 月推出以来,PyTorch 热度持续上升,一度有赶超 TensorFlow 的趋势。PyTorch 能在短时间内被众多研究人员和工程师接受并推崇是因为其有着诸多优点,如采用 Python 语言、动态图机制、网络构建灵活以及拥有强大的社群等。因此,走上学习 PyTorch 的道路已刻不容缓。
Keras
- 这套博客我给满分——All about Keras
- Keras 官方中文文档
- Keras 中文文档
- Develop Your First Neural Network in Python With Keras Step-By-Step
- Keras中自定义复杂的loss函数 - 科学空间 Scientific Spaces
- 基于Keras的Deep Learning学习入门指南(这份资料总结的很全面,但需要一定基础)
- Keras bolg
- Keras/Python深度学习中的网格搜索超参数调优(附源码)
- Keras 小抄
- Collection of tutorials setting up DNNs with Keras
- Jupyter notebooks for the book “Deep Learning with Python” star-2,975 知名的神經網路套件Keras的作者François Chollet,日前剛開源了一個github repo,裡面包含了所有他寫的新書”Deep Learning with Python”中所有的範例notebooks (都是用Keras寫的) 非常適合快速上手搭建模型,也更容易理解吸收原理 !
- deep-learning-keras-tensorflow star-1,902
- Keras resources
- Introductionto Deep Neural Networks with Keras and Tensorflow
- 莫烦 PYTHON Keras
- DataCamp Keras Course
- Introduction to Deep Learning with Keras, from CERN: video - slides
数据
数据是人工智能发展的一大基石。这部分教程包含了 AI 研究者、工程师等相关人员需要的数据集和数据可视化方法。
数据集
- AI 研发者福利!谷歌推出数据集搜索专用引擎 Dataset Search
- 入门 从文本处理到自动驾驶:机器学习最常用的 50 大免费数据集
- 资源 百万级字符:清华大学提出中文自然文本数据集 CTW
- 资源 从图像处理到语音识别,25 款数据科学家必知的深度学习开放数据集
- 资源 让 AI 学会刨根问底和放飞自我,斯坦福最新问答数据集 CoQA
- 资源 Chinese Word Vectors:目前最全的中文预训练词向量集合
- 资源 「火锅问答」是啥?面向自然语言和多步推理问题,新型问答数据集 HotpotQA 面世
数据可视化
- 4 种更快更简单实现 Python 数据可视化的方法
- 教程 如何利用散点图矩阵进行数据可视化
- 教程 5 种快速易用的 Python Matplotlib 数据可视化方法
- 从 1 维到 6 维,一文读懂多维数据可视化策略
进阶
掌握了基础知识,学了语言、框架,想不想在 AI 之路上再进一步呢?这一部分盘点了机器学习、深度学习、强化学习、计算机视觉、自然语言处理方面的理论知识、实践经验及工程技巧,此外还有全面、深入的详解、综述、竞赛类文章,既适合研究人员,也适合各个领域的工程师阅读学习。
机器学习
- 资源 这是一份收藏量超过 2 万 6 的计算机科学学习笔记
- 资源 吴恩达《ML Yearning》52 章译文,一份很有诚意的 GitHub 项目
- 奔走相告!亚马逊内部机器学习课程现向大众免费开放
- 资源 源自斯坦福 CS229,机器学习备忘录在集结
- 资源 吴恩达《机器学习》笔记,哥大研究生献上
- 斯坦福统计学习理论笔记:Percy Liang 带你搞定「贼难」的理论基础
- 演讲 技术讲解概率机器学习——深度学习革命之后 AI 道路
- 举两个栗子:如何正确建立个人的机器学习项目集
深度学习
强化学习
- DeepMind 推出深度学习与强化学习进阶课程(附视频)
- 资源 《深度强化学习》手稿开放了!
- 从 Zero 到 Hero,OpenAI 重磅发布深度强化学习资源
- MIT 科学家 Dimitri P. Bertsekas 最新 2019 出版《强化学习与最优控制》(附书稿 PDF&讲义)
- MILA 2018 夏季深度学习与强化学习课程资源大放送
- 资源 Bengio 等人的 2018 夏季课程视频终放出,但有些沉重
- 资源 学到了!UC Berkeley CS 294 深度强化学习课程(附视频与 PPT)
- 「AlphaGo 之父」David Silver 最新演讲,传授强化学习的十大原则
自然语言处理
综述/详解/竞赛
人生选择
继续深造还是就业?每个即将走出校门的人面临这种艰难的人生选择,甚至有些已经就业的人也在考虑重新选择。这里有一些过来人给出了一些实用的人生建议/职业指导,希望对你有所启发。
读博
- 想要入坑机器学习?这是 MIT 在读博士的 AI 心得
- 观点 机器学习博士生的基本素养:除了硬技能,还要学会与导师相处
- 求生之路:博士生涯的 17 条简单生存法则
- 专栏 UC Berkeley 刘畅流博士:湾区五年博士路
- 观点 博士离开学术界算不算失败?牛津大学博士有话要说
- Nature:刚入校门的 PhD 们还可以抢救一下
- 写在博士旅程之前——前大疆创新技术总监杨硕
- 观点 读博有风险,入坑需谨慎
- 我的八年博士生涯——CMU 王赟写在入职 Facebook 之前
- 我收到了斯坦福、UCL、CMU、NYU、UW 的博士 offer,这是我的经验
就业
- 从构建关系网到面试最后一问,这是一份 AI 公司应聘全面指南
- 资源 25 个机器学习面试题,期待你来解答
- 计算机科学专业毕业?这是给你的职业建议(亮点在最后)
- 手写二叉树?程序员面试最常见问题 TOP 48
- 从苹果店员到机器学习工程师:学习 AI,我是这样起步的
- 入门 如果是个穷光蛋:如何从零开始学习成为一个数据科学家?
参考
- 《新年大礼包:机器之心2018高分教程合集》