尝试进行实体识别

使用简单的分词和词性标注以及关键词计算尝试进行实体识别
情况不太好
prinsiple.py
使用南京大学的学生手册印证如下
总词数4000+(无重复)名词加入范围
image.pngimage.png

对于学生手册由于不是小说,所以人名实体和地点实体都很少,更多的是概念和物品
下一步考虑使用关键词和词性进行交叉验证,(使用福尔摩斯的小说进行试验的时候,提取人名实体的情况比较优秀)