编程实验篇--线性探测哈希表

线性探测哈希表性能测试实验报告

1. 实验目的

  • 编程实现线性探测哈希表。
  • 编程测试线性探测哈希表。
  • 了解线性探测哈希表的性能特征,并运行程序进行验证。

2. 实验背景与理论基础

哈希表是一种高效的数据结构,用于实现符号表(Symbol Table),支持快速的插入、查找和删除操作。当不同的键哈希到同一个地址时,会发生冲突。线性探测(Linear Probing)是一种常见的开放寻址(Open Addressing)冲突解决策略,它通过探测当前位置的下一个连续槽位来寻找空闲位置。

线性探测的性能分析主要关注查找操作所需的平均探测次数。根据教材,当冲突通过线性探测解决时,哈希表大小为 M M M 且包含 N = α M N = \alpha M N=αM 个键时,其平均探测次数有以下理论近似值(Property 14.3):

  • 查找失败 (misses) 的平均探测次数:
    1 2 ( 1 + 1 ( 1 − α ) 2 ) \frac{1}{2}\left(1 + \frac{1}{(1-\alpha)^2}\right) 21(1+(1α)21)

其中, α = N / M \alpha = N/M α=N/M 是哈希表的负载因子。

此外,查找失败的平均成本也可以通过分析哈希表中形成的聚簇(clusters)来计算:
查找失败的平均成本 = 1 + N 2 M + ∑ i k t i 2 2 M \text{查找失败的平均成本} = 1+\frac{N}{2M}+\frac{\sum_i^kt_i^2}{2M} 查找失败的平均成本=1+2MN+2Mikti2
其中, t i t_i ti 是插入过程中形成的第 i i i 个聚簇的长度,总共有 k k k 个聚簇。

本次实验将重点关注查找失败的平均成本

根据实验设计,我们将 N / 2 N/2 N/2 个随机整数插入到大小为 N N N 的哈希表中,因此负载因子 α = ( N / 2 ) / N = 0.5 \alpha = (N/2) / N = 0.5 α=(N/2)/N=0.5。代入查找失败的理论公式,可计算出在此负载因子下的理论平均成本:
理论平均成本 = 1 2 ( 1 + 1 ( 1 − 0.5 ) 2 ) = 2.5 \text{理论平均成本} = \frac{1}{2}\left(1 + \frac{1}{(1-0.5)^2}\right)= 2.5 理论平均成本=21(1+(10.5)21)=2.5
因此,对于本次实验中的所有测试用例,理论上的查找失败平均成本应为 2.5 次探测。

3. 实验设计与实现

实验任务: 编写程序实现 Exercise 14.28,即插入 N / 2 N/2 N/2 个随机整数到大小为 N N N 的哈希表中,并计算查找失败的平均成本。

Exercise1428

程序实现

  1. 哈希表结构: 使用数组 st 作为哈希表,存储 Item 指针。Item 包含 KeyValue
  2. 初始化 (STinit): 根据传入的最大元素数量 max,将哈希表大小 M 设置为 2 * max。由于实验要求插入 N / 2 N/2 N/2 个元素到大小为 N N N 的表,所以 M 在这里对应练习题中的 N N N
  3. 哈希函数 (hash): 采用简单的整数哈希函数 (11 * x) % M
  4. 插入 (STinsert): 采用线性探测解决冲突。如果初始哈希位置被占用,则向右(索引递增)探测直到找到空槽位。
  5. 簇分析 (analyze_clusters):
    • 遍历哈希表,识别所有形成的聚簇。一个聚簇被定义为连续的被占用槽位序列。
    • 计算每个聚簇的长度 t i t_i ti
    • 累加所有聚簇长度的平方和 ∑ t i 2 \sum t_i^2 ti2
    • 根据公式 1 + N 2 M + ∑ i k t i 2 2 M 1+\frac{N}{2M}+\frac{\sum_i^kt_i^2}{2M} 1+2MN+2Mikti2 计算出基于簇长度的查找失败平均成本(即实验值 average_cost)。
    • 同时,根据负载因子 α = N / M \alpha = N/M α=N/M 和 Property 14.3 的公式计算理论平均成本(theory_cost)。
    • 打印实验值和理论值以便对比。
  6. 测试用例: 设计了四组测试,分别对应 N = 10 3 , 10 4 , 10 5 , 10 6 N=10^{3}, 10^{4}, 10^{5}, 10^{6} N=103,104,105,106。在每个测试中,向表中插入 N / 2 N/2 N/2 个随机整数。
    • test_insert_1000(): M=1000, 插入 500 个随机数。
    • test_insert_10000(): M=10000, 插入 5000 个随机数。
    • test_insert_100000(): M=100000, 插入 50000 个随机数。
    • test_insert_1000000(): M=1000000, 插入 500000 个随机数。
  7. 随机数生成: 使用 srand(time(NULL)) 进行随机数播种,以确保每次程序运行生成不同的随机序列。

4. 实验结果

程序运行后,得到以下输出:

Table(M=1000):the average cost of unsuccessful search in that table is 1.558000, theory cost: 2.500000
Table(M=10000):the average cost of unsuccessful search in that table is 2.488200, theory cost: 2.500000
Table(M=100000):the average cost of unsuccessful search in that table is 2.481630, theory cost: 2.500000
Table(M=1000000):the average cost of unsuccessful search in that table is 2.503940, theory cost: 2.500000

5. 结果分析

这些结果清晰地展示了线性探测哈希表在不同规模下,查找失败平均成本的实验值与理论值之间的关系。

  1. M=1000 (表大小为 1000,插入 500 个元素):

    • 实验平均成本为 1.558000,而理论平均成本为 2.500000。
    • 分析: 在这种较小规模的哈希表中,实验结果与理论值存在较明显的偏差。这是因为理论平均值是基于大量随机插入的统计结果,而单次运行(尤其在数据量较小的情况下)可能因随机数的具体序列偶然地形成了比平均情况更少或更短的簇,从而导致实际观察到的探测次数低于理论预测。这反映了小样本量下的统计波动性。
  2. M=10000 (表大小为 10000,插入 5000 个元素):

    • 实验平均成本为 2.488200,理论平均成本为 2.500000。
    • 分析: 实验结果与理论值已非常接近。这表明随着哈希表规模的增大(以及插入元素数量的增加),线性探测在随机插入下的实际行为开始向其统计平均值收敛。随机性带来的局部波动效应被更大量的数据所平均。
  3. M=100000 (表大小为 100000,插入 50000 个元素):

    • 实验平均成本为 2.481630,理论平均成本为 2.500000。
    • 分析: 实验结果继续保持与理论值的高度吻合,进一步证实了这种收敛性。
  4. M=1000000 (表大小为 1000000,插入 500000 个元素):

    • 实验平均成本为 2.503940,理论平均成本为 2.500000。
    • 分析: 实验结果与理论值几乎完全一致,仅存在微小的正常波动。这完美地展示了当数据量足够大时,线性探测在半满情况下的性能是如何精确符合理论模型的。

6. 结论

该程序 Exercise1428 的运行结果有力地验证了以下几点:

  • 理论公式的有效性: 教材中关于线性探测查找失败平均成本的理论公式 (Property 14.3) 在实践中是准确的预测器。通过实验结果与理论值的对比,可以清晰地看到二者的高度吻合,尤其是在大规模数据量下。
  • 规模效应: 随着哈希表规模的增大,线性探测在随机插入条件下的实际性能会越来越接近其理论平均值。小规模表的结果可能因随机性而有较大波动,但随着 N N N 的增长,这种波动逐渐减小。
  • 线性探测的特性: 即使在负载因子为 0.5 0.5 0.5(即哈希表半满)这种相对较低的情况下,查找失败的平均成本也不是理想的 1 1 1 次探测,而是大约 2.5 2.5 2.5 次。这反映了线性探测固有的“初级聚簇”(primary clustering)问题:即使表不满,连续的占用槽位也会导致查找路径变长,从而产生额外的探测成本。这也解释了为什么在线性探测中,通常建议将负载因子保持在更低的水平(例如,远小于 0.5),以避免性能随着表接近满而急剧下降。

本次实验成功地编程实现了线性探测哈希表,并通过对比实验结果与理论预测,加深了对线性探测性能特征及其“初级聚簇”问题的理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/82982.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Python提取PDF元数据的完整指南

PDF文档中包含着丰富的元数据信息,这些信息对文档管理和数据分析具有重要意义。本文将详细介绍如何利用Python高效提取PDF元数据,并对比主流技术方案的优劣。 ## 一、PDF元数据概述 PDF元数据(Metadata)是包含在文档中的结构化信…

【量化】策略交易类型

通过查找相关资料,这里罗列了一些常见的策略交易类型,如下: 📊 技术分析类策略 均线交叉策略(SMA、EMA)动量策略(Momentum)相对强弱指数策略(RSI)随机指标策…

【Go语言基础【17】】切片:一种动态数组

文章目录 零、概述一、切片基础1、切片的结构2、切片的创建方式3、切片的操作与扩容 二、切片的拷贝与共享内存三、切片作为函数参数 Go语言的切片(slice)是一种动态数组,提供了灵活、高效的元素序列操作。它基于底层数组实现,通过…

MybatisPlus使用DB静态工具出现找不到实体类的报错

报错:Not Found TableInfoCache. 原因在于没有创建实体类对应的mapper,并且该mapper还必须继承baseMapper。 猜测大概的原理应该是DB会去查找实体类对应的mapper,然后通过mapper去查找对应的实体类。

Linux nano命令的基本使用

参考资料 GNU nanoを使いこなすnano基础 目录 一. 简介二. 文件打开2.1 普通方式打开文件2.2 只读方式打开文件 三. 文件查看3.1 打开文件时,显示行号3.2 翻页查看 四. 文件编辑4.1 Ctrl K 复制 和 Ctrl U 粘贴4.2 Alt/Esc U 撤回 五. 文件保存与退出5.1 Ctrl …

LLMs 系列科普文(15)

前面 14 篇文章,就是本系列科普文中想介绍的大部分技术内容。重点讲述了训练这些模型的三个主要阶段和范式:预训练、监督微调和强化学习。 我向你们展示了这些步骤大致对应于我们已用于教导儿童的过程。具体来说,我们将预训练比作通过阅读说…

深入理解汇编语言中的顺序与分支结构

本文将结合Visual Studio环境配置、顺序结构编程和分支结构实现,全面解析汇编语言中的核心编程概念。通过实际案例演示无符号/有符号数处理、分段函数实现和逻辑表达式短路计算等关键技术。 一、汇编环境配置回顾(Win32MASM) 在Visual Studi…

Selenium4+Python的web自动化测试框架

一、什么是Selenium? Selenium是一个基于浏览器的自动化测试工具,它提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分:Selenium IDE、Selenium WebDriver 和Selenium Grid。 Selenium IDE:Firefo…

React 样式方案与状态方案初探

React 本身只提供了基础 UI 层开发范式,其他特性的支持需要借助相关社区方案实现。本文将介绍 React 应用体系中样式方案与状态方案的主流选择,帮助开发者根据项目需求做出合适的选择。 1. React 样式方案 1.1. 内联样式 (Inline Styles) 通过 style …

PHP中如何定义常量以及常量和变量的主要区别

在PHP编程中,常量和变量是存储数据的两种重要方式。常量在定义后值不能改变,而变量的值可以在程序执行过程中发生变化。本文将详细介绍如何在PHP中定义常量,并深入探讨常量和变量的主要区别。 一、PHP中定义常量 1. 使用 define 函数定义常…

奈飞工厂官网,国内Netflix影视在线看|中文网页电脑版入口

奈飞工厂是一个专注于提供免费Netflix影视资源的在线播放平台,致力于为国内用户提供的Netflix热门影视内容。该平台的资源与Netflix官网基本同步,涵盖电影、电视剧、动漫和综艺等多个领域。奈飞工厂的界面简洁流畅,资源分类清晰,方…

CMS内容管理系统的设计与实现:架构设计

一、整体架构方案 &#xff08;一&#xff09;架构方案选择&#xff08;根据项目规模&#xff09; 1. 中小型项目推荐方案&#xff08;团队<10人&#xff09; #mermaid-svg-cjzaHpptY8pYWnzo {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:1…

嵌入式里的时间魔法:RTC 与 BKP 深度拆解

文章目录 RTC实时时钟与BKPUnix时间戳UTC/GMT时间戳转换时间戳转换BKP简介BKP基本结构1. 电池供电模块&#xff08;VBAT 输入&#xff09;2. 侵入检测模块&#xff08;TAMPER 输入&#xff09;3. 时钟输出模块&#xff08;RTC 输出&#xff09;4. 内部寄存器组 RTC简介RTC时钟源…

STC8H系列 驱动步进电机

STC8H 驱动步进电机 一、引言二、硬件设计三、软件设计Step_Motor2.c文件Step_ Motor2.h文件 一、引言 众所周知STC8H系列有两个PWM&#xff0c;分别为PWMA和PWMB外设模块&#xff0c;我全都用上&#xff0c;岂不是就有两个带动电机的脉冲信号&#xff1f;&#xff01;哈哈哈哈…

Python高阶函数:从入门到精通

目录 Python高阶函数详解&#xff1a;从概念到高级应用引言&#xff1a;函数式编程的魅力一、高阶函数基础概念1.1 什么是高阶函数1.2 Python中的一等函数 二、内置高阶函数详解2.1 map函数&#xff1a;数据转换利器2.2 filter函数&#xff1a;数据筛选专家2.3 reduce函数&…

腾讯开源视频生成工具 HunyuanVideo-Avatar,上传一张图+一段音频,就能让图中的人物、动物甚至虚拟角色“活”过来,开口说话、唱歌、演相声!

腾讯混元团队提出的 HunyuanVideo-Avatar 是一个基于多模态扩散变换器&#xff08;MM-DiT&#xff09;的模型&#xff0c;能够生成动态、情绪可控和多角色对话视频。支持仅 10GB VRAM 的单 GPU运行&#xff0c;支持多种下游任务和应用。例如生成会说话的虚拟形象视频&#xff0…

DeepSeek-R1-0528:开源推理模型的革新与突破

一、 发布日期与背景 2025年5月29日&#xff0c;备受业界关注的DeepSeek推理模型DeepSeek-R1迎来重要更新——DeepSeek-R1-0528模型正式发布。此次更新采取了“静默发布”策略&#xff0c;未提前预告&#xff0c;而是通过官方渠道&#xff08;官网、App、小程序&#xff09;及…

LeetCode 1723: 完成所有工作的最短时间

给你一个整数数组 jobs &#xff0c;其中 jobs[i] 是完成第 i 项工作要花费的时间。 请你将这些工作分配给 k 位工人。所有工作都应该分配给工人&#xff0c;且每项工作只能分配给一位工人。工人的 工作时间 是完成分配给他们的所有工作花费时间的总和。请你设计一套最佳的工作…

JDK8新特性之Steam流

这里写目录标题 一、Stream流概述1.1、传统写法1.2、Stream写法1.3、Stream流操作分类 二、Stream流获取方式2.1、根据Collection获取2.2、通过Stream的of方法 三、Stream常用方法介绍3.1、forEach3.2、count3.3、filter3.4、limit3.5、skip3.6、map3.7、sorted3.8、distinct3.…

split方法

在编程中&#xff0c;split 方法通常用于将字符串按照指定的分隔符拆分成多个部分&#xff0c;并返回一个包含拆分结果的列表&#xff08;或数组&#xff09;。不同编程语言中的 split 方法语法略有不同&#xff0c;但核心功能相似。以下是常见语言中的用法&#xff1a; ​1. P…