数据结构 - java数据结构第11章--树结构实际应用 - 《大数据之路》

11.1 堆排序
11.2 赫夫曼树

11.1 堆排序

11.1.1 堆排序基本介绍

1.堆的时间复杂度

堆排序是利用堆这种数据结构而设计的一种排序算法，堆排序是一种选择排序，它的最坏，最好，平均时间复杂度均为O(nlogn)，它也是不稳定排序。

2.堆的定义

堆是具有以下性质的完全二叉树：每个结点的值都大于或等于其左右孩子结点的值，称为大顶堆, 注意: 没有
要求结点的左孩子的值和右孩子的值的大小关系。每个结点的值都小于或等于其左右孩子结点的值，称为小顶堆

3. 大顶堆举例说明

java数据结构第11章--树结构实际应用 - 图1

4. 小顶堆举例说明

java数据结构第11章--树结构实际应用 - 图2

5. 使用场景

一般升序采用大顶堆，降序采用小顶堆

11.1.2 堆排序基本思想

堆排序的基本思想是：

1) 将待排序序列构造成一个大顶堆
2) 此时，整个序列的最大值就是堆顶的根节点。
3) 将其与末尾元素进行交换，此时末尾就为最大值。
4) 然后将剩余n-1 个元素重新构造成一个堆，这样会得到n 个元素的次小值。如此反复执行，便能得到一个有序
序列了。
可以看到在构建大顶堆的过程中，元素的个数逐渐减少，最后就得到一个有序序列了.

11.1.3 堆排序步骤图解

1.说明

要求给你一个数组{4,6,8,5,9} , 要求使用堆排序法，将数组升序排序。

2.步骤一：构造初始堆

将给定无序序列构造成一个大顶堆（一般升序采用大顶堆，降序采用小顶堆)。原始的数组[4, 6, 8, 5, 9]
1) .假设给定无序序列结构如下
java数据结构第11章--树结构实际应用 - 图3
2) .此时我们从最后一个非叶子结点开始（叶结点自然不用调整，第一个非叶子结点
arr.length/2-1=5/2-1=1，也就是下面的6 结点），从左至右，从下至上进行调整。
3) .
java数据结构第11章--树结构实际应用 - 图4
3) .找到第二个非叶节点4，由于[4,9,8]中9 元素最大，4 和9 交换。
java数据结构第11章--树结构实际应用 - 图5
4) 这时，交换导致了子根[4,5,6]结构混乱，继续调整，[4,5,6]中6 最大，交换4 和6。此时，我们就将一个无序序列构造成了一个大顶堆。
java数据结构第11章--树结构实际应用 - 图6

此时，我们就将一个无序序列构造成了一个大顶堆。

3.步骤二：将堆顶元素与末尾元素进行交换，使末尾元素最大。然后继续调整堆，再将堆顶元素与末尾元素交换，得到第二大元素。如此反复进行交换、重建、交换。
1) .将堆顶元素9 和末尾元素4 进行交换
java数据结构第11章--树结构实际应用 - 图7

2) .重新调整结构，使其继续满足堆定义
java数据结构第11章--树结构实际应用 - 图8
3) .再将堆顶元素8 与末尾元素5 进行交换，得到第二大元素8.
java数据结构第11章--树结构实际应用 - 图9
4) 后续过程，继续进行调整，交换，如此反复进行，最终使得整个序列有序
java数据结构第11章--树结构实际应用 - 图10

4.再简单总结下堆排序的基本思路：

1).将无序序列构建成一个堆，根据升序降序需求选择大顶堆或小顶堆;
2).将堆顶元素与末尾元素交换，将最大元素”沉”到数组末端;
3).重新调整结构，使其满足堆定义，然后继续交换堆顶元素与当前末尾元素，反复执行调整+交换步骤，
直到整个序列有序。

11.1.4 堆排序代码实现

1.要求：

给你一个数组{4,6,8,5,9} , 要求使用堆排序法，将数组升序排序。

2.说明：

1) 堆排序不是很好理解，老师通过Debug 帮助大家理解堆排序
2) 堆排序的速度非常快，在我的机器上8 百万数据3 秒左右。O(nlogn)

3.代码实现

思路：
java数据结构第11章--树结构实际应用 - 图11

package tree;
import java.text.SimpleDateFormat;
import java.util.Arrays;
import java.util.Date;
public class HeapSort {
    public static void main(String[] args) {
        //要求将数组进行升序排序
        //int arr[] = {4, 6, 8, 5, 9};
        // 创建要给80000 个的随机的数组
        int[] arr = new int[8000000];
        for (int i = 0; i < 8000000; i++) {
            arr[i] = (int) (Math.random() * 8000000); // 生成一个[0, 8000000) 数
        }
        System.out.println("排序前");
        Date data1 = new Date();
        SimpleDateFormat simpleDateFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
        String date1Str = simpleDateFormat.format(data1);
        System.out.println("排序前的时间是=" + date1Str);
        heapSort(arr);
        Date data2 = new Date();
        String date2Str = simpleDateFormat.format(data2);
        System.out.println("排序前的时间是=" + date2Str);
        //System.out.println("排序后=" + Arrays.toString(arr));
    }
    //编写一个堆排序的方法
    public static void heapSort(int arr[]) {
        int temp = 0;
        System.out.println("堆排序!!");
        // //分步完成
        // adjustHeap(arr, 1, arr.length);
        // System.out.println("第一次" + Arrays.toString(arr)); // 4, 9, 8, 5, 6
        //
        // adjustHeap(arr, 0, arr.length);
        // System.out.println("第2 次" + Arrays.toString(arr)); // 9,6,8,5,4
        //完成我们最终代码
        //将无序序列构建成一个堆，根据升序降序需求选择大顶堆或小顶堆
        for (int i = arr.length / 2 - 1; i >= 0; i--) {
            adjustHeap(arr, i, arr.length);
        }
        /*
        * 2).将堆顶元素与末尾元素交换，将最大元素"沉"到数组末端;
        3).重新调整结构，使其满足堆定义，然后继续交换堆顶元素与当前末尾元素，反复执行调整+交换
        步骤，直到整个序列有序。
        */
        for (int j = arr.length - 1; j > 0; j--) {
            //交换
            temp = arr[j];
            arr[j] = arr[0];
            arr[0] = temp;
            adjustHeap(arr, 0, j);
        }
        //System.out.println("数组=" + Arrays.toString(arr));
    }
        //将一个数组(二叉树), 调整成一个大顶堆
    /**
     * 功能： 完成将以i 对应的非叶子结点的树调整成大顶堆
     * 举例int arr[] = {4, 6, 8, 5, 9}; => i = 1 => adjustHeap => 得到{4, 9, 8, 5, 6}
     * 如果我们再次调用adjustHeap 传入的是i = 0 => 得到{4, 9, 8, 5, 6} => {9,6,8,5, 4}
     *
     * @param arr    待调整的数组
     * @param i      表示非叶子结点在数组中索引
     * @param lenght 表示对多少个元素继续调整， length 是在逐渐的减少
     */
    public static void adjustHeap(int arr[], int i, int lenght) {
        int temp = arr[i];//先取出当前元素的值，保存在临时变量
        //开始调整
        //说明
        //1. k = i * 2 + 1 k 是i 结点的左子结点
        for (int k = i * 2 + 1; k < lenght; k = k * 2 + 1) {
            if (k + 1 < lenght && arr[k] < arr[k + 1]) { //说明左子结点的值小于右子结点的值
                k++; // k 指向右子结点
            }
            if (arr[k] > temp) { //如果子结点大于父结点
                arr[i] = arr[k]; //把较大的值赋给当前结点
                i = k; //!!! i 指向k,继续循环比较
            } else {
                break;//!
            }
        }
        //当for 循环结束后，我们已经将以i 为父结点的树的最大值，放在了最顶(局部)
        arr[i] = temp;//将temp 值放到调整后的位置
    }
}

4.运行结果

堆排序!!
排序后={4,5,6,8,9}

5. 效率测试（800w 3s）

//测试速度
排序前
排序前的时间是=2021-04-17 15:33:48
堆排序!!
排序前的时间是=2021-04-17 15:33:51
Process finished with exit code 0

其他备注

1.排序算法之堆排序及其时间复杂度和空间复杂度

11.2 赫夫曼树

11.2.1 基本介绍

1.最优二叉树定义

给定n 个权值作为n 个叶子结点，构造一棵二叉树，若该树的带权路径长度(wpl)达到最小，称这样的二叉树为 最优二叉树，也称为哈夫曼树(Huffman Tree), 还有的书翻译为霍夫曼树。

2.最优二叉树特点

赫夫曼树是带权路径长度最短的树，权值较大的结点离根较近

11.2.2 赫夫曼树几个重要概念和举例说明

1.路径和路径长度：

在一棵树中，从一个结点往下可以达到的孩子或孙子结点之间的通路，称为路径。通路中分支的数目称为路径长度。若规定根结点的层数为1，则从根结点到第L 层结点的路径长度为L-1

2.结点的权及带权路径长度：

若将树中结点赋给一个有着某种含义的数值，则这个数值称为该结点的权。结点的带权路径长度为：从根结点到该结点之间的路径长度与该结点的权的乘积

3.树的带权路径长度：

树的带权路径长度规定为所有叶子结点的带权路径长度之和，记为WPL(weighted path length) ,权值越大的结点离根结点越近的二叉树才是最优二叉树。

4.WPL 最小的就是赫夫曼树

java数据结构第11章--树结构实际应用 - 图12
（第二颗权值最小，为赫夫曼树）

11.2.3 赫夫曼树创建思路图解

给你一个数列{13, 7, 8, 3, 29, 6, 1}，要求转成一颗赫夫曼树.

1.思路分析(示意图)：构成赫夫曼树的步骤：

{13, 7, 8, 3, 29, 6, 1}
构成赫夫曼树的步骤：
1) 从小到大进行排序, 将每一个数据，每个数据都是一个节点，每个节点可以看成是一颗最简单的二叉树
2) 取出根节点权值最小的两颗二叉树
3) 组成一颗新的二叉树, 该新的二叉树的根节点的权值是前面两颗二叉树根节点权值的和
4) 再将这颗新的二叉树，以根节点的权值大小再次排序，不断重复1-2-3-4 的步骤，直到数列中，所有的数
据都被处理，就得到一颗赫夫曼树
5) 图解:
java数据结构第11章--树结构实际应用 - 图13

11.2.4 赫夫曼树的代码实现

代码实现：

1.实际代码

package huffmanTree;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
public class HuffmanTree {
    public static void main(String[] args) {
        int arr[] = { 13, 7, 8, 3, 29, 6, 1 };
        Node root = createHuffmanTree(arr);
        //测试一把
        preOrder(root); //
    }
    //编写一个前序遍历的方法
    public static void preOrder(Node root) {
        if(root != null) {
            root.preOrder();
        }else{
            System.out.println("是空树，不能遍历~~");
        }
    }
        // 创建赫夫曼树的方法
    /**
     *
     * @param arr 需要创建成哈夫曼树的数组
     * @return 创建好后的赫夫曼树的root 结点
     */
    public static Node createHuffmanTree(int[] arr) {
        // 第一步为了操作方便
        // 1. 遍历arr 数组
        // 2. 将arr 的每个元素构成成一个Node
        // 3. 将Node 放入到ArrayList 中
        List<Node> nodes = new ArrayList<Node>();
        for (int value : arr) {
            nodes.add(new Node(value));
        }
        //我们处理的过程是一个循环的过程
        while(nodes.size() > 1) {
            //排序从小到大
            Collections.sort(nodes);
            System.out.println("nodes =" + nodes);
            //取出根节点权值最小的两颗二叉树
            //(1) 取出权值最小的结点（二叉树）
            Node leftNode = nodes.get(0);
            //(2) 取出权值第二小的结点（二叉树）
            Node rightNode = nodes.get(1);
            //(3)构建一颗新的二叉树
            Node parent = new Node(leftNode.value + rightNode.value);
            parent.left = leftNode;
            parent.right = rightNode;
            //(4)从ArrayList 删除处理过的二叉树
            nodes.remove(leftNode);
            nodes.remove(rightNode);
            //(5)将parent 加入到nodes
            nodes.add(parent);
        }
        //返回哈夫曼树的root 结点
        return nodes.get(0);
    }
}
// 创建结点类
// 为了让Node 对象持续排序Collections 集合排序
// 让Node 实现Comparable 接口
class Node implements Comparable<Node> {
    int value; // 结点权值
    Node left; // 指向左子结点
    Node right; // 指向右子结点
    //写一个前序遍历
    public void preOrder() {
        System.out.println(this);
        if(this.left != null) {
            this.left.preOrder();
        }
        if(this.right != null) {
            this.right.preOrder();
        }
    }
    public Node(int value) {
        this.value = value;
    }
    @Override
    public String toString() {
        return "Node [value=" + value + "]";
    }
    @Override
    public int compareTo(Node o) {
// TODO Auto-generated method stub
        // 表示从小到大排序
        return this.value - o.value;
    }
}

2.运行结果

nodes=[Node{value=1}, Node{value=3}, Node{value=6}, Node{value=7}, Node{value=8}, Node{value=13}, Node{value=29}]

第一次处理后[Node{value=6}, Node{value=7}, Node{value=8}, Node{value=13}, Node{value=29}, Node{value=4}]

Node{value=67}
Node{value=29}
Node{value=38}
Node{value=15}
Node{value=7}
Node{value=8}
Node{value=23}
Node{value=10}
Node{value=4}
Node{value=1}
Node{value=3}
Node{value=6}
Node{value=13}
Process finished with exit code 0

知识点补充

1.Java 中 Comparable 接口的意义和用法.
2.Java 在什么情况下要重写toString
3.Java基础之重写equals、hashCode和compareTo方法
4.java中foreach的用法
5.Java集合(二)：List列表

java数据结构 第11章--树结构实际应用