一.ResumeSDk

1.对于有固定模板的直接使用规则来获取内容
首先使用开源的文本转换库,把pdf或者word格式转成txt,然后设置规则,靠关键词提取,但是存在没有关键词、关键词打错字、关键词没有在词库里等情况都会影响准确性,更常见的还是一些招聘网站的简历模板,设定规则相对容易但也只适用于该招聘网站的模板。
2 对于无固定模板的但对准确度要求不高的使用规则也能够完成
3对于无固定模板且对准确度要求高的则采用规则+机器学习方法来实现。
首先根据不同格式的简历选择不同的文本转换方法,确保转换的准确性,在进行文本转换后,需要设计出分段式别的算法,在他们的研究中发现CRF特征效果可能比更复杂的神经网络模型更好,在得到准确的段落划分后,对每个模块进行小段经历切割,在这里就要考虑上下文特征,比如上一个段落信息是否以及包含学校、专业、学历、时间等,在此之后能否得到一个完整的段落,。在得到小段经历切割后,再从小段中对实体进行提取,这里就用到了机器学习中的NER(命名实体识别)。

二. 小析智能