collect_list与collect_set
转自:https://www.cnblogs.com/cc11001100/p/9043946.html
select collect_list(‘1’,‘2’,‘3’) ->[“1,2,3”] 返回是一个list
它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。
create table
t_visit_video (
username string,
video_name string
) partitioned by
(day string)
row format delimited fields terminated by ‘,’;
数据表:
1.按用户分组,取出每个用户每天看过的所有视频的名字:
select
username, collect_list(video_name)
from t_visit_video
group by username ;
但是上面的查询结果有点问题,因为霸王别姬实在太好看了,所以李四这家伙看了两遍,这直接就导致得到的观看过视频列表有重复的,所以应该增加去重,使用collect_set,其与collect_list的区别就是会去重:
select
username, collect_set(video_name)
from t_visit_video
group by username;
李四的观看记录中霸王别姬只出现了一次,实现了去重效果。
————————————————
版权声明:本文为CSDN博主「栗子呀!」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_43665254/article/details/112552005