《数据结构与算法》之堆

导言：

我们在以前的学习中知道了堆栈，和队列，在系统处理上这两种数据结构的确是很高效的，但是在系统的任务调度上就是很高效了，我们cpu处理任务是有优先级的，要是按照队列和栈的思想都是线性执行，可能发生的情况就是输出一个字符比系统掉电请求处理的优先级高，可能输出一个字符先来，所以在任务调度上线性结构就会有明显的劣势，现在我们要学习的堆能否解决这一问题呢？

一.堆的相关定义和操作

什么是堆？

堆其实就是一种特殊的队列，即优先队列

它是按照已有元素的优先级来排列的，它的优先级高的在堆顶，优先级低的在堆低

堆的实现

堆的实现有很多

队列实现：本身堆就是一个优先级队列，使用队列实现可以，但是新增的元素，增删改需要大量的移动，所以不建议使用

二叉树实现：实际上我们最常用的实现就是二叉树实现，优先级高的在父结点，优先级低的在子结点，增删改比线性结构要方便的多

二叉树实现堆：

二叉树实现堆一定要满足，树是完全二叉树

如上图：

完全二叉树在除了最后一层可以有空缺外，其它层都是满的，而且最后一层的数据应该是在集中在左子树，只要同一层的左子树没有满，右子树可以没有数据

构造堆的二叉树可以不是查找二叉树，毕竟那要求太严苛了，一旦有了连续的数据肯定会导致二叉树成为线性结构，所以构造堆的时候不偏向查找二叉树，而是偏向完全二叉树

构造堆的完全二叉树应该要保证，树的父结点是大于子结点的，子结点可以无序，左节点和右结点谁大无所谓

如上图：

这就是构建堆中的两种基本类型的堆，大顶堆和小顶堆

大顶堆：完全二叉树的情况下，父结点的值 “大于” 任一子结点

小顶堆：完全二叉树的情况下，父结点的值 “ 小于” 任一子结点

堆的有序性：

不管是大顶堆还是小顶堆，都应该满足从根结点出发，到任一子结点都是有序的（可能是递增序列，可能是递减序列）

堆的操作

选用链表的形式来实现二叉树：

typedef int ElementType;
typedef struct HeapStruct* MaxHeap;
struct HeapStruct
{
    ElementType* Elements; //存储堆中的元素
    int Size;              //堆中当前的元素个数
    int Capacity;          //堆的最大容量
};

上面就是树结点的结构：
通过 Elements 来存储元素的值

通过 Size 来记录当前的位置，以及 + 1 后下一个元素的位置

通过 Capacity 来表示堆的最大容量，用来限制堆是否可以存储，且它的默认位置数组下标的 0 号空间

堆的插入操作（大顶堆）：

建堆前我们需要有一些准备工作，比如先把数组的0号元素作为岗哨，申请堆空间的大小，初始化堆的一些信息等等

MaxHeap Create(int Maxsize) {
    MaxHeap H = malloc(sizeof(struct HeapStruct));
    H->Elements=malloc((Maxsize+1)*sizeof(ElementType));
    H->Size = 0;
    H->Capacity = Maxsize;
    H->Elements[0] = MaxData;
    return H;
}

上面的代码就是需要我们初始化堆的一些特性，比如存储数据的大小等等

堆的插入特点：

先按照完全二叉树的结构插入新数据
当父结点的值小于新插入子结点时和父结点互换
每次互换都要向上继续检查，有可能新数据是最大的子结点

void Insert(MaxHeap H, ElementType number) {
    int i;
    if (H->Size == H->Capacity) {
        printf("堆已经满了！");
        return;
    }
    i = ++H->Size;
    for (; H->Elements[i / 2] < number; i /= 2) {
        H->Elements[i] = H->Elements[i / 2];
    }
    H->Elements[i] = number;
}

上面就是堆插入的代码：

它首先判断了堆内数组还有没有空闲的空间，如果没有了就不能插入了，反之便可以

然后就是通过循环，如果当前结点比父结点小，或者等于父结点，那么就不需要变动

如果比父结点大，那么就需要经过内循环的移动覆盖掉父结点，就是等于把父结点的元素移动到插入的子结点上，

这里需要注意的是循环内执行的代码变量 i 和最后把新元素赋值到结点内的 i 它们的值不是最开始的 H->Size

堆的删除操作（大顶堆）：

堆的删除操作可以分为两步：

第一步，把要删除的元素和最后一个元素位置对调，可以采用最后一个位置直接覆盖掉要删除位置的元素，然后再断链最后一个元素

第二步，从被覆盖的位置开始，维护堆，即如果被换上来的元素小于子结点，那么就把子结点大的交换上来，继续递归知道，此结点大于子结点，或它自己是叶结点

ElementType DeleteMax(MaxHeap H) {
    int parent, child;
    ElementType MaxItem, temp;
    if (H->Size == 0) {
        printf("堆空，无需操作");
        return;
    }
    MaxItem = H->Elements[1];      //拿到最大结点
    temp = H->Elements[H->Size--]; //分号作用域内，先赋值后自减
    for (parent = 1;parent * 2 <=H->Size; parent = child)
    {
        child = parent * 2;
        //左儿子的计算方法
        if ((child != H->Size) && (H->Elements[child] < H->Elements[child + 1]))
            // 第一个条件判定了，有没有右儿子，第二个条件为了找到最大的儿子
            child++;
        if (temp >= H->Elements[child])
            //要被交换的元素大于最大的儿子，符合大顶堆
            break;
        else
            //最大儿子比要被交换的元素大，把最大儿子弄上来当父结点
            H->Elements[parent] = H->Elements[child];
    }
    //循环结束表示找到了要被交换元素的位置
    H->Elements[parent] = temp;
    return MaxItem;
}

上面是删除堆元素的实现：

由于删除操作都是把优先级高的删除，所以堆删除有个很明显的删除特点，就是每次删除必是删除堆顶元素

删除操作就是和最后一个元素交换，然后断链，维护

这里我们重点来看一下堆的维护

维护有三种情况：

需要维护的结点本身就有两个子结点，把最大的子结点交换上来做父结点，自己去做子结点，此时需要循环此操作，又要当下一层的父结点，直到无子结点，或者自己就是最大的子结点
需要维护的结点本身只有一个子结点，比较这两个结点，如果子结点更大，那么就交换做父子结点，由于完全二叉树的特性，这种情况下肯定是最后一层才有的，所以交换完成就可以退出了
需要维护的结点本身没有子结点，这种情况就不用管它，直接退出

堆的创建操作（大顶堆）：

创建堆的方式一共有两种：

方法一：从建堆开始，一个一个的插入元素，然后逐个的维护已构建好了的堆，它的最大创建代价是 O(N log N)，具体的操作可以参考我前面写的随笔：十大基础排序算法中的堆排序

方法二：在线性条件下，来构建大顶堆，第一步先让序列构建成完全二叉树，第二步调整结点位置，使其满足大顶堆的性质

如上图：

使用这种方式构建堆，它是从最后一个小堆开始维护的，，然后每一层的小堆维护完成以后，就会去上一层，这样一层一层的维护

它的代码描述和上面的删除代码描述很像，可以去仿一下

二.哈夫曼树（应用型）

哈夫曼树是一种树的应用型开发，它是最多使用于编码问题，解决最多使用次数的编码在前面，最少使用的编码在后面

什么是哈夫曼树？

给定N个权值作为N个叶子结点，构造一棵二叉树，若该树的带权路径长度达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman Tree)。

哈夫曼树是带权路径长度最短的树，权值较大的结点离根较近。

如上图：

我们的两种编码方式，第一种是顺序编码，即按字母的先后顺序进行编码的结果，它的平均查找速率是 47

而第二种使用权值来进行编码的结果是 40，明显在相同的树结构下，第二种方式是更高的，也比较符合日常的需求

第二种就是哈夫曼树，也叫最优二叉树：WPL的值最小

WPL：带权路径长度

哈夫曼树的构造

如上图：

哈夫曼树的构造特点是，每次构造都需要从带权序列中拿取两个最小元素作为子结点建堆，它们的父结点是两子结点的权值

父节点会被放回带权序列，继续比较后拿取两个最小的元素作为子结点建堆，然后重复以上操作

哈夫曼树应用编码

我们先来看看一个简单的编码：

我们有a，b，c，d四个字母，我们尽量少的使用二进制数字进行编码，可以怎么做呢？

a：0

b：1

c：10

d：01

我们使用的数字可能是最少的，但是编码能不能使用呢？给定一个序列 1011，它代表那些字母？

是 babb 还是 cbb 还是 bdb ，我们会很明显的发现这一串编码是有二义性的，这样的编码可能满足最少二进制数，但是不能使用

我们接下来要使用的是哈夫曼树来实现编码：

上面的编码不能使用是因为很多编码都不是前缀码。

前缀码：任何字符的编码都不是另一字符编码的前缀（可以无二义解码）

哈夫曼树编码就满足前缀码

上面就是使用哈夫曼树进行的编码:

它的编码格式避免了一个元素的码是另一个元素的头部的情况，实用性很强

堆空间的应用实例可以看看我写的 Java内存模型中的堆空间，Java对堆空间在内存中做了很多优化，可以了解一下

posted @ 2023-06-17 11:45 ~java小白~ 阅读(0) 评论(0) 编辑收藏举报

《数据结构与算法》之堆

《数据结构与算法》之堆

导言：

一.堆的相关定义和操作

堆的实现

二叉树实现堆：

堆的操作

堆的插入操作（大顶堆）：

堆的删除操作（大顶堆）：

堆的创建操作（大顶堆）：

二.哈夫曼树（应用型）

哈夫曼树的构造

哈夫曼树应用编码

优雅殿下（王者段位）

温馨提示

最新会员

《数据结构与算法》之堆

《数据结构与算法》之堆

导言：

一.堆的相关定义和操作

堆的实现

二叉树实现堆：

堆的操作

堆的插入操作（大顶堆）：

堆的删除操作（大顶堆）：

堆的创建操作（大顶堆）：

二.哈夫曼树（应用型）

哈夫曼树的构造

哈夫曼树应用编码

优雅殿下 （王者 段位）

温馨提示

最新会员

优雅殿下（王者段位）