任务进展
1. NLP 部分
选取了几个GitHub的入门项目进行练手。
CNN中文分词:https://github.com/chqiwang/convseg
相关文献:
- Wang C, Xu B. Convolutional neural network with word embeddings for Chinese word segmentation[J]. arXiv preprint arXiv:1711.04411, 2017.
进度:
- 已取得训练和测试用的数据集
- 未能运行项目
- 代码太老,使用的是tensorflow 1版本,与目前tensorflow 2.x不兼容
- 尚未整理代码(先搁置)
中文文本进行分词、词性标注、句法分析等等:https://github.com/HIT-SCIR/ltp
相关文献:
- Che W, Feng Y, Qin L, et al. N-ltp: A open-source neural chinese language technology platform with pretrained models[J]. arXiv preprint arXiv:2009.11616, 2020.
进度:未开始
2. AST 部分
这部分工作目前主要由@王启星(wangqixing-sdb3q)同学负责。
- Java to AST:https://github.com/Program-Analysis/Java-to-AST-with-Visualization
- 进度:
- 项目已导入,可输出json和dot两种格式的AST
- 正在重写
- 替换作者直接上传的依赖库为Maven仓库
- 项目已导入,可输出json和dot两种格式的AST
- 进度:
问题记录
- 暂无
下周计划
1. NLP 部分
阅读以下项目的参考论文,学习其实现
- 关系抽取:https://github.com/ankitp94/relationship-extraction
- 词义消岐:https://github.com/alvations/pywsd
- 实体消歧:https://github.com/dice-group/AGDISTIS
- 实体链接:https://github.com/hasibi/EntityLinkingRetrieval-ELR
2. AST 部分
研究当前项目的实现方法(因为可能需要重写,或者加入一些我们自己的需求)