UDF
- 编写java类继承UDF类
- 约定俗成的重写evaluate方法
- 打包
- rz -bye上传到linux
- hdfs 命令上传到服务器
- hive里 add jar ->create temporary function->使用函数
UDAF
- 定义一个java类继承UDAF类
- 内部定义一个静态类,实现UDAFEvaluator接口
- 实现方法init,iterate,terminatePartial,merge,terminate共5个方法.
- 同上3~6
hive参数
MapJoin ——
将join的本来应该是reduce进行关联查找的过程,改成由纯map端进行关联查找。移动小数据
数据倾斜 —- 木桶原理
真倾斜(vip会员倒卖,硬件配置倾斜),假倾斜(数据结构,sql)
二次排序 —-
2个字段排序,第1个字段若有比较结果则按第1个字段排序。在map到reduce过程中按照2个字段进行升序排序
hive四种参数使用方式
- 配置文件
- hive —hiveconf
- 进入hive后 set
- shell 脚本