何晗《自然语言处理入门》PDF 源代码 - 《自然语言处理》

自然语言处理是一门交叉学科，属于人工智能的一个分支，涉及计算机科学、语言学、数学等多个领域的专业知识。外行人很难入门这个小众的圈子。经典教材虽然高屋建瓴，但自学的话

很难读懂，缺乏代码也无法落地；工程类书籍则往往侧重对开源项目的接口介绍，缺乏深度与宏观系统性。曾经跟天书般的术语与公式顽强斗争，也在迷宫般的教学代码中苦苦挣扎。现在

回顾自学历程，当时缺少一本面向普通人的入门书，走了许多弯路。

《自然语言处理入门》PDF+何晗+源代码
《自然语言处理入门》PDF，有书签，390页，文字可复制，作者：何晗，配套源代码。
下载: https://pan.baidu.com/s/1jokSnx7bfagOMQxF5H0-3g
提取码: uk5w

下载: https://pan.baidu.com/s/1cfJlubIrm-SGViDD94-Q9A
提取码: pprp

介绍一些字符串算法，让普通程序员从算法的角度思考中文信息处理。由易到难地讲解一些常用的机器学习模型，让算法工程师晋级为机器学习工程师。这部分并非空谈理论，而是由中文

分词这一应用问题贯穿始终，构成一种探索式的递进学习。这些模型也并非局限于中文分词，会在第三部分应用到更多的自然语言处理问题上去。新增了许多与文本处理紧密相关的算法，

让机器学习工程师进化到自然语言处理工程师。特别地，最后一章介绍了当前流行的深度学习方法，起到扩展视野、承上启下的作用。

在开源自然语言处理项目 HanLP 流行起来后，接触了大量 NLP 初学者，看到不少人碰到了当初苦苦思索的问题。许多用户不理解“统计自然语言处理”的设计理念，对 “语料”“训练”“模型”等

概念十分陌生。同时，如果你缺乏自然语言处理基础的话，也无法掌握 HanLP 中的高级功能。还有部分学习热情高涨的用户尝试阅读 HanLP 的代码，却反应即便代码有注释，也看不懂为什

么要这么写……用户的问题和困惑越积越多，有些朋友建议写一本 HanLP 的书。然而认为一本书不应当局限于代码，而应当让读者知其所以然，而彼时觉得自己才疏学浅，写不出满意之作

。后来经过几年的完善，HanLP 成为 GitHub 上最受欢迎的自然语言处理项目，对自然语言处理的理解也系统化了一些。正巧图灵的王军花老师跟我约稿，想是时候将这些年的收获总结一

下了。

避免大而全式地泛泛而谈，又不拘泥于工程实践，这是我写作这本书秉持的原则。我希望这本务实的入门书，能够帮助零起点的你上手这门新学科，并且真正将自然语言处理应用在生产环

境中。书中不是枯燥无味的公式罗列，而是用白话阐述的通俗易懂的算法模型；书中不是对他人开源代码的堆砌，而是工业级开发经验的分享。