数据结构与算发 - 数组学习总结 - 《Java》

一维数组
- 一、数组的概念及特点
  - 数组如何实现随机访问？
  - 为啥数组从0开始编号而不是1呢？
二、数组插入、删除为何比较低效及优化方案
- 低效原因：
- 优化方法：
多维数组
- 概念">概念
- 使用案例
对数组的操作方法
容器与数组
- ArrayList 扩容的底层实现
本篇遗留问题

一维数组

一、数组的概念及特点

数组（Array）：是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据。

线性表（Linear List）：顾名思义，线性表就是数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向，即线性表是一种数据具有前后关系的数据结构。其实除了数组，链表、队列、栈等也是线性表结构。

优点：数组支持随机访问，根据下标随机访问的时间复杂度为O(1)。

缺点：数组为了保持内存数据的连续性，会导致插入、删除这两个操作比较低效。

数组如何实现随机访问？

我们知道，计算机会给每个内存单元分配一个地址，计算机通过地址来访问内存中的数据。当计算机需要随机访问数组中的某个元素时，它会首先通过下面的寻址公式，计算出该元素存储的内存地址：

a[i]_address = base_address + i * data_type_size

其中data_type_size表示数组中每个元素的大小，base_address 为内存块的首地址

为啥数组从0开始编号而不是1呢？

1、性能原因

从数组存储的内存模型上来看，“下标”最确切的定义应该是“偏移（offset）”。前面也讲到，如果用a来表示数组的首地址，a[0]就是偏移为0的位置，也就是首地址，a[k]就表示偏移k个type_size的位置，所以计算a[k]的内存地址只需要用这个公式： a[k]_address = base_address + k * type_size

但是，如果数组从1开始计数，那我们计算数组元素a[k]的内存地址就会变为：

a[k]_address = base_address + (k-1)type_size

对比两个公式，我们不难发现，从1开始编号，每次随机访问数组元素都多了一次减法运算，对于CPU来说，就是多了一次减法指令。

数组作为非常基础的数据结构，通过下标随机访问数组元素又是其非常基础的编程操作，效率的优化就要尽可能做到极致。所以为了减少一次减法操作，数组选择了从0开始编号，而不是从1开始。

2、历史原因

C语言设计者用0开始计数数组下标，之后的Java、JavaScript等高级语言都效仿了C语言，或者说，为了在一定程度上减少C语言程序员学习Java的学习成本，因此继续沿用了从0开始计数的习惯。实际上，很多语言中数组也并不是从0开始计数的，比如Matlab。甚至还有一些语言支持负数下标，比如Python。

二、数组插入、删除为何比较低效及优化方案

低效原因：

插入操作：

假设数组的长度为n，现在，如果我们需要将一个数据插入到数组中的第k个位置。为了把第k个位置腾出来，给新来的数据，我们需要将第k～n这部分的元素都顺序地往后挪一位，时间复杂度为O(n-k)。
如果在数组的末尾插入元素，那就不需要移动数据了，这时的时间复杂度为O(1)。
如果在数组的开头插入元素，那所有的数据都需要依次往后移动一位，所以最坏时间复杂度是O(n)。

而我们在每个位置插入元素的概率是一样的，所以平均情况时间复杂度为(1+2+…n)/n=O(n)。

删除操作：

跟插入数据类似，若要删除第k个位置的数据，为了内存的连续性，也需要搬移数据，不然中间就会出现空洞，内存就不连续。

如果删除数组末尾的数据，则最好情况时间复杂度为O(1)；
如果删除开头的数据，则最坏情况时间复杂度为O(n)；

平均情况时间复杂度为O(n)。

优化方法：

插入操作：

1、数组中的数据有序

没有找到合适的优化方案

2、数组中的数据无序：

如果数组中存储的数据并没有任何规律，数组只是被当作一个存储数据的集合。在这种情况下，如果要将某个数据插入到第k个位置，为了避免大规模的数据搬移，我们还有一个简单的办法就是直接将第k位的数据搬移到数组元素的最后，把新的元素直接放入第k个位置。这样在第k个位置插入一个元素的时间复杂度就会降为O(1)。这个处理思想在快排中也会用到。

删除操作：

在某些特殊场景下，我们并不一定非得追求数组中数据的连续性。我们可以先记录下已经删除的数据。每次的删除操作并不是真正地搬移数据，只是记录数据已经被删除。当数组没有更多空间存储数据时，我们再触发执行一次真正的删除操作，这样就大大减少了删除操作导致的数据搬移。类似于JVM标记清除垃圾回收算法的核心思想。

代码案例

/**
     * 根据索引删除数组中元素
     *
     * @param index
     * @return
     */
    public boolean delete(int index) {
        if (index < 0 || index >= count) {
            return false;
        }
        //从删除位置开始，将后面元素向前移动一位
        for (int i = index + 1; i < count; i++) {
            arr[i - 1] = arr[i];
        }
        count--;
        return true;
    }
    /**
     * 借鉴ArrayList 类下删除数据的方法
     *
     * @param index
     */
    private void fastDelete(int index) {
        int numMoved = size - index - 1;
        if (numMoved > 0) {
            System.arraycopy(data, index + 1, data, index,
                    numMoved);
        }
        // clear to let GC do its work
        data[--size] = null;
    }
    /**
     * 将要删除的数据进行标记，当数组没有更多空间存储数据时，我们再触发执行一次真正的删除操作
     *
     * @param index
     * @return
     */
    public boolean efficientDelete(int index) {
        if (index < 0 || index >= count) {
            return false;
        }
        List<Integer> list = new ArrayList<>();
        list.add(index);
        //判断容量是否已满
        if (count == n) {
            list.stream().forEach(i ->{
                delete(i);
            });
        }
        return true;
    }

我们看到efficientDelete() 方法中只是将要删除的元素延后删除,而JVM标记清除算法又是如何实现的,数据库中删除数据又是如何实现的(MySQL、Kudu)呢?

多维数组

概念

二维数组内存寻址：

对于 m * n 的数组，a [ i ] [ j ] (i < m,j < n)的地址为：

address = base_address + ( i n + j) type_size

使用案例

例如要统计一个公司三个销售小组中每个小组的总销售额以及整个公司的销售额。如下所示

l 第一小组销售额为{11, 12}万元

l 第二小组销售额为{21, 22, 23}万元

l 第三小组销售额为{31, 32, 33, 34}万元。

 public void multidimensionalArrayExercise() {
        //定义一个二维数组，各维度的元素个数不确定
        int[][] arr = new int[3][];
        // 为数组的元素赋值
        arr[0] = new int[]{11, 12};
        arr[1] = new int[]{21, 22, 23};
        arr[2] = new int[]{31, 32, 33, 34};
        // 定义变量记录总销售额
        int sum = 0;
        for (int i = 0; i < arr.length; i++) {
            // 定义变量记录小组销售总额
            int groupSum = 0;
            // 遍历小组内每个人的销售额
            for (int j = 0; j < arr[i].length; j++) {
                groupSum = groupSum + arr[i][j];
            }
            sum = sum + groupSum;
            System.out.println("第" + (i + 1) + "小组销售额为：" + groupSum + " 万元");
        }
        System.out.println("总销售额为: " + sum + " 万元");
    }

对数组的操作方法

个人写的对一维数组的操作方法

java.util 包下的Arrays 类封装了对数组的处理方法

容器与数组

针对数组类型，很多语言都提供了容器类，比如Java中的ArrayList、C++ STL中的vector。在项目开发中，什么时候适合用数组，什么时候适合用容器呢？
以Java为例，在日常工作中，经常用ArrayList，它与数组相比，到底有哪些优势呢？

数组在定义时就已经申请好了大小，当内存不够时需要我们手动重新去分配更大的空间，将原来的数据复制过去，然后再将新的数据插入，耗时长。而ArrayList不仅可以将很多数组操作的细节封装起来，比如前面提到的数组插入、删除数据时需要搬移其他数据等。而且它还支持动态扩容，我们就完全不需要关心底层的扩容逻辑，当存储空间不够的时候，它都会将空间自动扩容为1.5倍大小，而在扩容时交耗时，所以我们在定义ArrayList时，如果事先能确定需要存储的数据大小，最好在创建ArrayList的时候事先指定数据大小(默认为10)。

用数组会更合适些的场景：

Java ArrayList无法存储基本类型，比如int、long，需要封装为Integer、Long类，而Autoboxing、Unboxing则有一定的性能消耗，所以如果特别关注性能，或者希望使用基本类型，就可以选用数组。
如果数据大小事先已知,并且对数据的操作非常简单,用不到ArrayList提供的大部分方法,也可以直接使用数组。
还有一个是我个人的喜好，当要表示多维数组时，用数组往往会更加直观。比如Object[][] array；而用容器的话则需要这样定义：ArrayList array。

总结：对于业务开发，直接使用容器就足够了，省时省力。毕竟损耗一丢丢性能，完全不会影响到系统整体的性能。但如果你是做一些非常底层的开发，比如开发网络框架，性能的优化需要做到极致，这个时候数组就会优于容器，成为首选。

ArrayList 扩容的底层实现

ArrayList

本篇遗留问题

JVM标记清除垃圾回收算法的核心思想

JVM标记清除算法如何实现

MySQL、Kudu、HBase等数据库在删除数据时是如何高效实现的