微博舆情--hive离线数据仓库 day02 - 《linux与hadoop-spark》

编程思维的核心去发现问题、分析问题、解决问题、最后总结问题的规律，建立此类问题的模型，再整合到算法中，形成一套完整的程序。

舆情项目数据处理流程

1.上传到linux系统,zip格式*

2.解压,上传到hdfs,csv格式*

3.hive创建表,并导入数据,在weibo_origin中*

4.去掉每天的第一行,转入weibo_product中*

5.编写分词UDF,将分词结果导入weibo_seg_result中*

6.无过滤生成wc排序表V0,存入weibo_seg_wc中 * (V0结果,有单字,符号,各种词性的词)

微博舆情--hive离线数据仓库 day02 - 图1

6.1.按词长度过滤生成wc排序表,存入weibo_seg_wc中 * (V1结果,无单字,符号,但是有英文单词与各种词性的词)

微博舆情--hive离线数据仓库 day02 - 图2

5.2.修改UDF加入按词性过滤(词性1),将分词结果导入weibo_seg_result中

6.2.按词长度过滤生成wc排序表,存入weibo_seg_wc中 (V2结果,无单字,符号,有规定词性1的词)

微博舆情--hive离线数据仓库 day02 - 图3

5.3.修改UDF加入按词性过滤(词性2),将分词结果导入weibo_seg_result中

6.3.按词长度过滤生成wc排序表,存入weibo_seg_wc中 (V3结果,无单字,符号,有规定词性2的词)

微博舆情--hive离线数据仓库 day02 - 图4

7.编写黑名单txt文件,创建停用词表weibo_stopwords并导入

6.4.按词长度和停用词表过滤生成wc排序表,存入weibo_seg_wc中 (V4结果,无单字,符号,有规定词性2的词,并排除停用词表中的词)