一、Hive基础概念

1、hive数据模型

图片.png

与mysql基本无差异

文件格式：
面向行：.txt .seq
面向列：.rc .roc
压缩格式：
可切分：.loz .bz2
不可切分：.gz .snappy

DDL：数据定义语言
DML：数据操纵语言
DQL：数据查询语言

表分类
内表：元数据和数据本身都被Hive管理，删除表则全部删除。
外表：元数据被Hive管理，数据本身被HDFS管理。删除表只删除元数据。

external：此为内外表区分的唯一关键字
comment：为表添加注释
partitioned by：按照哪些字段分区
clustered by：按照哪些字段分桶
row format：设定分隔符
stored as：指定存储的文件类型
location：指定存储的Hive目录

show create table 查看已存在表的详细信息
show table 显示所有表
show views 查看所有视图
drop view 删除视图

load data inpath ‘ ‘ overwrite into table 表名 partition （come_data=？？？）

insert overwrite table 表名 partition（come_data=？？？）select * from …….

insert overwrite table 表名 partition（come_data）select * from…….
注意：需要先设置成非严格模式：set hive.exec.dynamic.partition.mode=nonstric;

统计记录行数，推荐使用count（1），而不是count（*）

if（条件，正确输出，错误输出）

coalesce（value1，value2，，，）将第一个不为null的值输出

case ‘ ‘
when ‘apple’ then ‘isapple’
when ‘pear’ then ‘isnotapple’
else ‘is not fruit’
end;

split（”a,b,c”,”,”）

explode（split（”a,b,c”,”,”））