UDF

  1. 编写java类继承UDF类
  2. 约定俗成的重写evaluate方法
  3. 打包
  4. rz -bye上传到linux
  5. hdfs 命令上传到服务器
  6. hive里 add jar ->create temporary function->使用函数

UDAF

  1. 定义一个java类继承UDAF类
  2. 内部定义一个静态类,实现UDAFEvaluator接口
  3. 实现方法init,iterate,terminatePartial,merge,terminate共5个方法.
  4. 同上3~6

hive参数

MapJoin ——

将join的本来应该是reduce进行关联查找的过程,改成由纯map端进行关联查找。移动小数据

数据倾斜 —- 木桶原理

真倾斜(vip会员倒卖,硬件配置倾斜),假倾斜(数据结构,sql)

二次排序 —-

2个字段排序,第1个字段若有比较结果则按第1个字段排序。在map到reduce过程中按照2个字段进行升序排序

hive四种参数使用方式

  1. 配置文件
  2. hive —hiveconf
  3. 进入hive后 set
  4. shell 脚本