1.项目需求概述
2.项目可行性分析
3.技术方案和开发计划
4.开发计划
5.细节开发和风险控制
·第1阶段:确定数据源
·数据洞查
·数据的总大小
·平均文件大小及文件个数
·总记录数
·可预见的最大和最小文件大小
实现
·将数据传到hdfs后load到表中
·数据校验是否正确
·清洗数据
·通过UDF实现分词,对数据分词处理
UFD实现步骤
·创建一个项目导入依赖
·继承UDF类
·约定俗成的重写evaluate方法
这里使用NlpAnalysis类进行分词处理
·测试并修改bug
·打包
·然后对分词的字段进行分组计算词频,然后写入到表里
·降噪处理
·第二版加入白名单词性列表,可以在分词时过滤掉词性没有意义的词
·第三版再次优化白名单词性列表
·第四版加入黑名单,分词时过滤黑名单中的词
