任务进展

1. NLP 部分

选取了几个GitHub的入门项目进行练手。

  • CNN中文分词:https://github.com/chqiwang/convseg

    • 相关文献:

      1. - Wang C, Xu B. Convolutional neural network with word embeddings for Chinese word segmentation[J]. arXiv preprint arXiv:1711.04411, 2017.
    • 进度:

      • 已取得训练和测试用的数据集
      • 未能运行项目
        • 代码太老,使用的是tensorflow 1版本,与目前tensorflow 2.x不兼容
        • 尚未整理代码(先搁置)
  • 中文文本进行分词、词性标注、句法分析等等:https://github.com/HIT-SCIR/ltp

    • 相关文献:

      1. - Che W, Feng Y, Qin L, et al. N-ltp: A open-source neural chinese language technology platform with pretrained models[J]. arXiv preprint arXiv:2009.11616, 2020.
    • 进度:未开始

2. AST 部分

这部分工作目前主要由@王启星(wangqixing-sdb3q)同学负责。

问题记录

  • 暂无

下周计划

1. NLP 部分

阅读以下项目的参考论文,学习其实现

2. AST 部分

研究当前项目的实现方法(因为可能需要重写,或者加入一些我们自己的需求)