1、加入热词黑名单

创建表,将停用词加入停用词表。 可以加多个文件进入表中。

在生成词频倒排表时,过滤停用词表—-order by要在最外面的语句。

2、gitlab

初始化

分支

提交

拉取

版本回退

idea界面,web界面操作 git

分支

展示分支 git branch 查看远程分支 git branch -r 查看所有分支 git branch -a 创建分支 git branch exam 切换分支 git checkout exam 创建并切换分支 git checkout -b exam 删除分支 git branch -d exam 强制删除未合并分支 git branch -D exam 合并分支 git merge another-exam 删除远程分支 git push origin :exam // 推送个空的 git push origin —delete exam

提交

添加到缓存区 git add xx 提交到本地版本库 git commit -m “exam_info” git push origin master 查看本地仓库状态 git status 查看差异 git diff exam 查看分支的所有操作记录 git reflog 版本回退 git reset —hard HEAD^ //回退到上个版本 git reset —hard HEAD@{1} //回退到指定版本 撤销工作区修改 git checkout — exam //例如删掉了本地文件后撤销 撤销缓存区的修改 git reset HEAD exam //删掉了缓存区文件 git checkout — exam 撤销本地库的修改 git reset —hard HEAD^ 查看远程仓库 git remote git remote -v //看详细信息 远程仓库的添加 git remote add origin exam-url 提交到远程仓库 git push remote-name local-branch-name:remote-branch-name or git push origin master 从远程仓库同步到本地 git clone exam-url 把远程数据拉到本地 git fetch origin master 合并,将拉取过来的数据合并到本地仓库分支当中 git merge exam 相当于pull git pull origin master 当git merge有冲突时,手动解决冲突,并提交来解决 git merge exam-解决冲突-git add exam-git commit -m “”

3、将hive表推送到mysql表中

步骤

o 将hive表数据生成到文件weibo_hot_result.txt(原名为000000_0)中 —-将表导成文件到hdfs,再从hdfs -get到本地。 shell脚本(4)

o 拥有一个mysql库,以及相应的读写权限

o 在mysql中创建词频表weibo_hot_wordsx

o 执行mysql命令将weibo_hot_result.txt导入到weibo_hot_words表中 shell脚本—— -与字母间别有空格,如果报密码是明文,可以去掉密码—-这 会在运行shell脚本时输密码

微博舆情--hive离线数据仓库day03 - 图1