1.项目需求概述

·解决项目需要做哪些东西的问题

2.项目可行性分析

·解决项目的可行性分析问题】

3.技术方案和开发计划

·解决原型当中涉及到的主要功能需求对应的具体技术选型

4.开发计划

·解决如何更精细化管理项目开发全过程

5.细节开发和风险控制

·按照之前分析出来的模块进行分工分阶段开发

·第1阶段:确定数据源

·数据洞查
·数据的总大小
·平均文件大小及文件个数
·总记录数
·可预见的最大和最小文件大小

实现

·将数据传到hdfs后load到表中
·数据校验是否正确
·清洗数据
·通过UDF实现分词,对数据分词处理

UFD实现步骤

·创建一个项目导入依赖
·继承UDF类
·约定俗成的重写evaluate方法
这里使用NlpAnalysis类进行分词处理
·测试并修改bug
·打包
·然后对分词的字段进行分组计算词频,然后写入到表里

·降噪处理

·第二版加入白名单词性列表,可以在分词时过滤掉词性没有意义的词
·第三版再次优化白名单词性列表
·第四版加入黑名单,分词时过滤黑名单中的词