collect_list与collect_set
    转自:https://www.cnblogs.com/cc11001100/p/9043946.html
    select collect_list(‘1’,‘2’,‘3’) ->[“1,2,3”] 返回是一个list
    它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。
    image.png
    create table
    t_visit_video (
    username string,
    video_name string
    ) partitioned by
    (day string)
    row format delimited fields terminated by ‘,’;

    数据表:
    image.png
    1.按用户分组,取出每个用户每天看过的所有视频的名字:
    select
    username, collect_list(video_name)
    from t_visit_video
    group by username ;
    image.png
    但是上面的查询结果有点问题,因为霸王别姬实在太好看了,所以李四这家伙看了两遍,这直接就导致得到的观看过视频列表有重复的,所以应该增加去重,使用collect_set,其与collect_list的区别就是会去重:
    select
    username, collect_set(video_name)
    from t_visit_video
    group by username;
    image.png

    李四的观看记录中霸王别姬只出现了一次,实现了去重效果。
    ————————————————
    版权声明:本文为CSDN博主「栗子呀!」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/qq_43665254/article/details/112552005