模板作者: @Cigaret(cigaret)

🌏 项目介绍

  • 甲方需求:FudaNLP-beginner00、基于机器学习的文本分类
  • 乙方服务:小严同学
  • 项目周期:一次性短期
  • 工作方式:办公平台
  • 项目成员: 乙方人员

🧭 项目方案

  • 团队管理:微信 + 语雀
  • 资源管理:本地文件管理 + 语雀素材库
  • 进度管理:语雀文档 | 语雀表格
    • 进度管理文档链接
  • 原型绘制:xiaopiu | Adobe XD | Figma
  • 需求文档:xiaopiu | 语雀文档

🔧 技术方案

  • 如果是技术导向的项目的话,涉及到的技术、产品或者方案列表!
  • 产品 A
  • 产品 B
  • 技术 A
  • 技术 B
  • 方案 A:产品 A + 技术 A + 技术 B

🛸 参考资料

image.png

image.png
image.png

B站的文本分类视频课程:https://www.bilibili.com/video/BV1Y4411a7mT?from=search&seid=906798455303329860
文本预处理:
正则、分词、
image.png

中文分词:

  1. 机械分词法(词典)
  2. 语法和规则
  3. 统计

demo1:动手做最大正向匹配算法
demo2: 统计法分词
马尔科夫链 马尔科夫过程
HMM:

  1. 暴力穷举法 计算每条路径的概率 复杂度太大
  2. Viterbi算法