https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select
查询语句语法:

  1. SELECT [ALL | DISTINCT] select_expr, select_expr, ...
  2. FROM table_reference
  3. [WHERE where_condition]
  4. [GROUP BY col_list]
  5. [ORDER BY col_list]
  6. [CLUSTER BY col_list
  7. | [DISTRIBUTE BY col_list] [SORT BY col_list]
  8. ]
  9. [LIMIT number]

1.1基本查询(Select…From)

1)全表查询

hive (default)> select * from emp;
hive (default)> select 所有列名 from 表名 ;

2)选择特定列查询

hive (default)> select 特定列名 from 表名;
注意:
(1)SQL 语言大小写不敏感。
(2)SQL 可以写在一行或者多行
(3)关键字不能被缩写也不能分行
(4)各子句一般要分行写。
(5)使用缩进提高语句的可读性。
可使用 limit限定查询几条数据

1.2列别名

1)重命名一个列
2)便于计算
3)紧跟列名,也可以在列名和别名之间加入关键字‘AS’
4)案例实操
语句: select 列名 as(可有可无)别名 from 表名 as(可有可无)表别名
hive (default)> select ename AS name, deptno dn from emp;

1.3算术运算符

运算符 描述
A + B A 和 B 相加
A - B A 减去 B
A * B A 和 B 相乘
A / B A 除以 B
A % B A 对 B 取余
A & B A 和 B 按位取与
A | B A 和 B 按位取或
A ^ B A 和 B 按位取异或
~A A 按位取反

案例实操:查询出所有员工的薪水后加 1 显示。
hive (default)> select sal +1 from emp;

1.4常用函数

1)求总行数(count)

hive (default)> select count(*) cnt from emp;

2)求工资的最大值(max)

hive (default)> select max(sal) max_sal from emp; 注max_sal 为列别名

3)求工资的最小值(min)

hive (default)> select min(sal) min_sal from emp;

4)求工资的总和(sum)

hive (default)> select sum(sal) sum_sal from emp;

5)求工资的平均值(avg)

hive (default)> select avg(sal) avg_sal from emp;

1.5Limit 语句

典型的查询会返回多行数据。LIMIT 子句用于限制返回的行数。
hive (default)> select * from emp limit 5;

hive (default)> select * from emp limit 2;

1.6 Where 语句

1)使用 WHERE 子句,将不满足条件的行过滤掉
2)WHERE 子句紧随 FROM(from) 子句
3)案例实操
查询出薪水大于 1000 的所有员工
hive (default)> select * from emp where sal >1000;
hive (default)> select ename,sal from emp where sal>1000;
注意:where 子句中不能使用字段别名。

1.7 比较运算符(Between/In/ Is Null)

1)下面表中描述了谓词操作符,这些操作符同样可以用于 JOIN…ON 和 HAVING 语句中。

操作符 支持的数据类型 描述
A=B 基本数据类型 如果 A 等于 B 则返回 TRUE,反之返回 FALSE
A<=>B 基本数据类型 如果 A 和 B 都为 NULL,则返回 TRUE,如果一边为 NULL,
返回 False
A<>B, A!=B 基本数据类型 A 或者 B 为 NULL 则返回 NULL;如果 A 不等于 B,则返回
TRUE,反之返回 FALSE
A<B 基本数据类型 A 或者 B 为 NULL,则返回 NULL;如果 A 小于 B,则返回
TRUE,反之返回 FALSE
A<=B 基本数据类型 A 或者 B 为 NULL,则返回 NULL;如果 A 小于等于 B,则返
回 TRUE,反之返回 FALSE
A>B 基本数据类型 A 或者 B 为 NULL,则返回 NULL;如果 A 大于 B,则返回
TRUE,反之返回 FALSE
A>=B 基本数据类型 A 或者 B 为 NULL,则返回 NULL;如果 A 大于等于 B,则返
回 TRUE,反之返回 FALSE
a [not] between b and c
A [NOT] BETWEEN B AND C
基本数据类型 如果 A,B 或者 C 任一为 NULL,则结果为 NULL。如果 A 的
值大于等于 B 而且小于或等于 C,则结果为 TRUE,反之为 FALSE。
如果使用 NOT 关键字则可达到相反的效果。
a is null
A IS NULL
所有数据类型 如果 A 等于 NULL,则返回 TRUE,反之返回 FALSE
a is not null
A IS NOT NULL
所有数据类型 如果 A 不等于 NULL,则返回 TRUE,反之返回 FALSE
in(数值1,数值2)
IN(数值 1, 数值 2)
所有数据类型 使用 IN 运算显示列表中的值
a [not] like b
A [NOT] LIKE B
string类型 B 是一个 SQL 下的简单正则表达式,也叫通配符模式,如
果 A 与其匹配的话,则返回 TRUE;反之返回 FALSE。B 的表达式
说明如下:‘x%’表示 A 必须以字母‘x’开头,‘%x’表示 A
必须以字母’x’结尾,而‘%x%’表示 A 包含有字母’x’,可以
位于开头,结尾或者字符串中间。如果使用 NOT 关键字则可达到
相反的效果。
A RLIKE B, A REGEXP B
a rlike b, a regexp b
string类型 B 是基于 java 的正则表达式,如果 A 与其匹配,则返回
TRUE;反之返回 FALSE。匹配使用的是 JDK 中的正则表达式接口实现的,因为正则也依据其中的规则。例如,正则表达式必须和
整个字符串 A 相匹配,而不是只需与其字符串匹配。

2)案例实操
(1)查询出薪水等于 5000 的所有员工
hive (default)> select * from emp where sal =5000;
(2)查询工资在 500 到 1000 的员工信息
hive (default)> select * from emp where sal between 500 and 1000;
(3)查询 comm 为空的所有员工信息
hive (default)> select * from emp where comm is null;
4)查询工资是 1500 或 5000 的员工信息
hive (default)> select * from emp where sal IN (1500, 5000);

1.8 Like 和 RLike

1)使用 LIKE 运算选择类似的值
2)选择条件可以包含字符或数字:
% 代表零个或多个字符(任意个字符)。
_ 代表一个字符。
3)RLIKE 子句 (rlike)
RLIKE 子句是 Hive 中这个功能的一个扩展,其可以通过 Java 的正则表达式这个更强大
的语言来指定匹配条件。
4)案例实操
(1)查找名字以 A 开头的员工信息
hive (default)> select * from emp where ename LIKE ‘A%’;
(2)查找名字中第二个字母为 A 的员工信息
hive (default)> select * from emp where ename LIKE ‘_A%’;
3)查找名字中带有 A 的员工信息
hive (default)> select * from emp where ename RLIKE ‘[A]’;

1.9 逻辑运算符(And/Or/Not)

操作符 含义
and 逻辑并
or 逻辑或
not in 逻辑否

1)案例实操
(1)查询薪水大于 1000,部门是 30
hive (default)> select * from emp where sal>1000 and deptno=30;
(2)查询薪水大于 1000,或者部门是 30
hive (default)> select * from emp where sal>1000 or deptno=30;
3)查询除了 20 部门和 30 部门以外的员工信息
hive (default)> select * from emp where deptno not IN(30, 20);

2 分组

2.1 Group By 语句

GROUP BY 语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然
后对每个组执行聚合操作。
1)案例实操:
(1)计算 emp 表每个部门的平均工资
hive (default)> select t.deptno, avg(t.sal) avg_sal from emp t group by
t.deptno;
2)计算 emp 每个部门中每个岗位的最高薪水
hive (default)> select t.deptno, t.job, max(t.sal) max_sal from emp t
group by
t.deptno, t.job;

2.2 Having 语句

1)having 与 where 不同点
(1)where 后面不能写分组函数,而 having 后面可以使用分组函数。
(2)having 只用于 group by 分组统计语句。
2)案例实操
1)求每个部门的平均薪水大于 2000 的部门
求每个部门的平均工资
hive (default)> select deptno, avg(sal) from emp group by deptno;
求每个部门的平均薪水大于 2000 的部门
hive (default)> select deptno, avg(sal) avg_sal from emp group by deptno
having avg_sal > 2000;

3 Join 语句

3.1 等值 Join

Hive 支持通常的 SQL JOIN 语句。
1)案例实操
(1)根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称;
hive (default)> select
e.empno, e.ename, d.deptno, d.dname
from
emp e
join
dept d
on
e.deptno = d.deptno;

3.2 表的别名

1)好处
(1)使用别名可以简化查询。
(2)使用表名前缀可以提高执行效率。
2)案例实操
合并员工表和部门表
hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d
on e.deptno = d.deptno;

3.3 内连接(join)

image.png
内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。
hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d
on e.deptno = d.deptno;

3.4 左外连接(left join)

image.png
左外连接:JOIN 操作符左边表中符合 WHERE 子句的所有记录将会被返回。
hive (default)> select e.empno, e.ename, d.deptno from emp e left join
dept d on e.deptno = d.deptno;

3.5 右外连接(right join)

image.png
右外连接:JOIN 操作符右边表中符合 WHERE 子句的所有记录将会被返回。
hive (default)> select e.empno, e.ename, d.deptno from emp e right join
dept d on e.deptno = d.deptno;

3.6 满外连接(full join)

image.png
满外连接:将会返回所有表中符合 WHERE 语句条件的所有记录。如果任一表的指定字
段没有符合条件的值的话,那么就使用 NULL 值替代。
hive (default)> select e.empno, e.ename, d.deptno from emp e full join
dept d on e.deptno = d.deptno;
可使用nvl函数查询 nvl()
如左边为null,则判断左边数据

3.7查左边特有的数据

image.png
写法一 写法二
image.png image.png

3.8查右边特有的数据

image.png
image.png

3.8查左右两边特有的数据

image.png
image.png image.png

3.8 笛卡尔积

1)笛卡尔集会在下面条件下产生
(1)省略连接条件
(2)连接条件无效
(3)所有表中的所有行互相连接
2)案例实操
hive (default)> select empno, dname from emp, dept;

.4 排序

4.1 全局排序(Order By)

Order By:全局排序,只有一个 Reducer
1)使用 ORDER BY 子句排序
ASC(ascend): 升序(默认)
DESC(descend): 降序
2)ORDER BY 子句在 SELECT 语句的结尾
3)案例实操
(1)查询员工信息按工资升序排列
hive (default)> select * from emp order by sal;
(2)查询员工信息按工资降序排列
hive (default)> select * from emp order by sal desc;

4.2 按照别名排序

按照员工薪水的 2 倍排序
hive (default)> select ename, sal*2 twosal from emp order by twosal;

4.3 多个列排序

按照部门和工资升序排序
hive (default)> select ename, deptno, sal from emp order by deptno, sal;

4.4 每个 Reduce 内部排序(Sort By)

Sort By:对于大规模的数据集 order by 的效率非常低。在很多情况下,并不需要全局排
序,此时可以使用 sort by。
Sort by 为每个 reducer 产生一个排序文件。每个 Reducer 内部进行排序,对全局结果集
来说不是排序__。
1)设置 reduce 个数
hive (default)> set mapreduce.job.reduces=3;
2)查看设置 reduce 个数
hive (default)> set mapreduce.job.reduces;
3)根据部门编号降序查看员工信息
hive (default)> select * from emp sort by deptno desc;
4)将查询结果导入到文件中(按照部门编号降序排序)
hive (default)> insert overwrite local directory
‘/opt/module/data/sortby-result’
select * from emp sort by deptno desc;

4.5 分区(Distribute By)

Distribute By: 在有些情况下,我们需要控制某个特定行应该到哪个 reducer,通常是为
了进行后续的聚集操作。distribute by 子句可以做这件事。distribute by 类似 MR 中 partition
(自定义分区),进行分区,结合 sort by 使用。
对于 distribute by 进行测试,一定要分配多 reduce 进行处理,否则无法看到 distribute
by 的效果。
1)案例实操:
1)先按照部门编号分区,再按照员工编号降序排序。
hive (default)> set mapreduce.job.reduces=3;
hive (default)> insert overwrite local directory
‘/opt/module/data/distribute-result’ select * from emp distribute by
deptno sort by empno desc;
注意:
➢ distribute by 的分区规则是根据分区字段的 hash 码与 reduce 的个数进行模除后,
余数相同的分到一个区。
➢ Hive 要求 DISTRIBUTE BY 语句要写在 SORT BY 语句之前。

4.6 Cluster By

当 distribute by 和 sorts by 字段相同时,可以使用 cluster by 方式。
cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。但是排序只能是升序
排序,不能指定排序规则为 ASC 或者 DESC。
(1)以下两种写法等价
hive (default)> select * from emp cluster by deptno;
hive (default)> select * from emp distribute by deptno sort by deptno;
注意:按照部门编号分区,不一定就是固定死的数值,可以是 20 号和 30 号部门分到一
个分区里面去