避免“卡脖子”!如何减少内存I/O延迟对程序的影响?

单来说,内存 IO 就像是计算机的 “数据高速公路”,负责在内存和其他设备(如硬盘、CPU 等)之间传输数据。它的速度和效率直接影响着计算机系统的整体性能。

你有没有想过,当你点击电脑上的一个应用程序,它是如何瞬间启动并开始运行的?当你在玩一款大型游戏时,那些精美的画面和流畅的动作又是如何快速呈现在你眼前的?其实,这背后都离不开一个关键的技术 —— 内存 IO。

简单来说,内存 IO 就像是计算机的 “数据高速公路”,负责在内存和其他设备(如硬盘、CPU 等)之间传输数据。它的速度和效率直接影响着计算机系统的整体性能。想象一下,如果这条 “高速公路” 拥堵不堪,数据传输缓慢,那么我们使用电脑时就会明显感觉到卡顿和延迟,无论是工作、学习还是娱乐,体验都会大打折扣。 接下来,就让我们一起深入探索内存 IO 的原理,揭开它神秘的面纱。

一、内存IO的硬件基础

1.1 CPU与内存的 “亲密接触”

在计算机的硬件世界里,CPU 和内存是两个至关重要的组件,它们之间的协同工作对于计算机的性能起着决定性的作用。那么,CPU 是如何与内存进行连接和通信的呢?这就涉及到内存控制器(IMC,Integrated Memory Controller)和 DDR PHY 等硬件组件 。

内存控制器就像是 CPU 与内存之间的 “交通枢纽”,它负责管理内存的访问、地址解码以及数据的传输等重要任务。在早期的计算机系统中,内存控制器通常位于主板芯片组的北桥芯片内部,CPU 要和内存进行数据交换,需要经过 “CPU-- 北桥 -- 内存 -- 北桥 --CPU” 五个步骤,这种模式下数据延迟较大,影响了计算机系统的整体性能。后来,AMD 在 K8 系列 CPU 中率先将内存控制器整合到 CPU 内部,数据交换过程简化为 “CPU-- 内存 --CPU” 三个步骤,大大降低了传输延迟。如今,现代处理器大多采用了集成内存控制器的设计,这使得 CPU 能够更快地响应内存请求,提高了内存访问的速度。

而 DDR PHY(DDR Physical Layer)则是连接 DDR 内存条和内存控制器的桥梁,它主要承担着命令及数据传输、提供链路延时以及控制逻辑等功能。在数据传输过程中,DDR PHY 需要把 DDRC(DDR Controller,DDR 控制器)逻辑电路系统时钟域的命令及数据,和 DRAM(Dynamic Random Access Memory,动态随机存取存储器,即我们常说的内存)接口时钟域的命令及数据进行相互转换和透传,确保数据能够准确无误地在 CPU 和内存之间传输。同时,它还通过模拟电路实现可配置大小的链路延时,对 DRAM 接口并行的命令、数据信号进行延时控制,并通过数字逻辑实现对 DRAM 接口并行的命令、数据信号进行 training(校准),以调整相互相位关系,达到可靠的通信质量。

1.2内存的微观世界:颗粒与矩阵

当我们打开电脑主机,看到内存条上那些黑色的小方块,它们就是内存颗粒(Chip),这些颗粒是内存的核心组成部分,也是数据存储的基本单元。但内存的物理结构远比我们看到的要复杂得多,它还包括 Rank、Bank 以及内部电容矩阵结构等。

在内存中,Rank 指的是属于同一个组的 Chip 的总和。这些 Chip 并行工作,共同组成一个 64bit(对于支持 ECC 功能的内存是 72bit)的数据集合,供 CPU 来同时读取。通常一个通道(channel)能够同时读写 64bit 的数据,这就意味着如果单个内存颗粒的位宽(例如常见的 4bit、8bit 或 16bit )不足 64bit,就需要多个颗粒并联起来组成一个 Rank。比如,对于位宽为 8bit 的颗粒,就需要 8 个 Chip 来组成一个 Rank,以满足 CPU 的数据读写需求。

而在每个内存颗粒内部,又包含了多个 Bank。可以把 Bank 想象成是内存颗粒中的一个独立存储区域,每个 Bank 内部是一个电容的行列矩阵结构。这个矩阵由多个方块状的元素构成,每个方块元素就是内存管理的最小单位,也叫内存颗粒位宽。当内存进行寻址时,就是通过指定行地址(Row Address)和列地址(Column Address),来准确地定位到矩阵中的某个存储单元(CELL),从而实现数据的读写操作。例如,当 CPU 需要读取内存中的某个数据时,内存控制器会将地址信号发送给内存颗粒,内存颗粒根据地址信号中的行地址和列地址,找到对应的存储单元,然后将数据返回给 CPU。

从内存控制器到内存颗粒内部的电容矩阵结构,这些硬件组件相互协作,共同构建了内存 IO 的硬件基础,为计算机系统的数据存储和传输提供了坚实的保障。了解这些硬件基础,有助于我们更好地理解内存 IO 的工作原理以及如何优化计算机系统的内存性能。

1.3 什么是IO?

在计算机操作系统中,所谓的I/O就是 输入(Input)和输出(Output),也可以理解为读(Read)和写(Write),针对不同的对象,I/O模式可以划分为磁盘IO模型和网络IO模型。

IO操作会涉及到用户空间内核空间的转换,先来理解以下规则:

  • 内存空间分为用户空间和内核空间,也称为用户缓冲区和内核缓冲区;
  • 用户的应用程序不能直接操作内核空间,需要将数据从内核空间拷贝到用户空间才能使用;
  • 无论是read操作,还是write操作,都只能在内核空间里执行;
  • 磁盘IO和网络IO请求加载到内存的数据都是先放在内核空间的;

再来看看所谓的读(Read)和写(Write)操作:

  • 读操作:操作系统检查内核缓冲区有没有需要的数据,如果内核缓冲区已经有需要的数据了,那么就直接把内核空间的数据copy到用户空间,供用户的应用程序使用。如果内核缓冲区没有需要的数据,对于磁盘IO,直接从磁盘中读取到内核缓冲区(这个过程可以不需要cpu参与)。而对于网络IO,应用程序需要等待客户端发送数据,如果客户端还没有发送数据,对应的应用程序将会被阻塞,直到客户端发送了数据,该应用程序才会被唤醒,从Socket协议找中读取客户端发送的数据到内核空间,然后把内核空间的数据copy到用户空间,供应用程序使用。
  • 写操作:用户的应用程序将数据从用户空间copy到内核空间的缓冲区中(如果用户空间没有相应的数据,则需要从磁盘—>内核缓冲区—>用户缓冲区依次读取),这时对用户程序来说写操作就已经完成,至于什么时候再写到磁盘或通过网络发送出去,由操作系统决定。除非应用程序显示地调用了sync 命令,立即把数据写入磁盘,或执行flush()方法,通过网络把数据发送出去。

二、内存IO的工作流程

2.1从请求到响应:数据的惊险之旅

当 CPU 需要从内存中读取数据时,内存 IO 的过程就正式启动了,这一过程仿佛一场惊险刺激的冒险,数据在各个环节中穿梭,每一步都关乎着计算机系统的运行效率 。

首先是行地址预充电(tRP,Row Precharge Time),这是内存操作的起始步骤。当内存完成上一次的读写操作后,需要对行地址进行预充电,以便为下一次的访问做好准备。这个过程就像是运动员在比赛前的热身,虽然看似简单,但却必不可少。tRP 的时间长短以时钟周期为单位,它决定了内存从一次操作结束到下一次行激活开始之间的等待时间。在现代内存中,tRP 通常是几个时钟周期,例如对于 DDR4 内存,tRP 的值可能在 10 - 20 个时钟周期左右,具体数值取决于内存的规格和工作频率。

完成行地址预充电后,接下来就是打开行内存(tRCD,Row Address to Column Address Delay)。这一步骤是内存访问的关键环节,它需要花费一定的时间来激活指定的行地址,并将该行的数据加载到行缓冲器(Row Buffer)中。tRCD 的延迟时间同样以时钟周期计算,它表示从发出行地址到可以访问该行中的列数据之间所需的最小时钟周期数。一般来说,tRCD 的值会比 tRP 略长一些,对于 DDR4 内存,tRCD 可能在 12 - 25 个时钟周期之间。这就好比在一个大型图书馆中,要找到特定书架上的某本书,首先需要确定书架的位置(行地址),然后才能在书架上查找具体的书籍(列地址),这个确定书架位置的过程就类似于打开行内存的操作,需要一定的时间。

当行内存打开并将数据加载到行缓冲器后,就可以发送列地址(CL,Column Address Latency)了。CL 指的是从发送列地址到内存开始返回数据之间的周期数,它是内存延迟的一个重要参数。CL 的值越小,说明内存响应速度越快,能够更快地将数据返回给 CPU。例如,常见的 DDR4 内存的 CL 值可能在 15 - 20 之间,不同品牌和型号的内存,CL 值会有所差异。这就像你在网上购物下单后,商家发货的速度有快有慢,CL 值就反映了内存 “发货”(返回数据)的快慢程度。

最后,经过前面一系列的操作,数据终于从内存中返回给 CPU。CPU 接收到数据后,会将其放入自己的缓存(Cache)中,以便后续能够更快速地访问和处理。整个内存 IO 的过程,从 CPU 发出请求到数据返回,虽然看似短暂,但却涉及多个复杂的步骤和精确的时间控制,任何一个环节的延迟都可能影响到计算机系统的整体性能。

2.2随机IO与顺序 IO:速度的较量

在内存 IO 中,数据的访问方式主要分为随机 IO 和顺序 IO,这两种访问方式就像是两个不同风格的运动员,在速度上展开了激烈的较量。

顺序 IO 是指按照连续的地址顺序对内存进行访问,就像你在书架上依次取出相邻位置的书籍一样。这种访问方式的特点是数据的读取或写入是连续的,内存可以充分利用其预取机制,提前将后续可能需要的数据加载到行缓冲器中,从而大大提高了数据传输的效率。例如,当你在播放高清视频时,视频数据是以连续的方式存储在内存中的,通过顺序 IO,内存可以快速地将一帧帧的视频数据传输给 CPU 和显卡,保证视频的流畅播放。在顺序 IO 模式下,由于不需要频繁地切换行地址和列地址,减少了行地址预充电和打开行内存等操作的次数,所以能够实现较高的数据传输速率,通常顺序 IO 的速度要比随机 IO 快很多 。

而随机 IO 则是指以不连续的地址方式对内存进行访问,数据的读取或写入位置是随机分布的,如同在一个巨大的图书馆中随机寻找不同位置的书籍。在随机 IO 中,每次访问内存都可能需要重新进行行地址预充电、打开行内存以及发送列地址等操作,这些额外的操作增加了内存访问的延迟。例如,在数据库系统中,当进行复杂的查询操作时,可能需要随机读取内存中不同位置的数据记录,这就会导致频繁的随机 IO 操作。由于每次随机访问都需要花费一定的时间来完成上述步骤,所以随机 IO 的速度相对较慢,其性能往往受到行地址切换和列地址查找的影响。

为了更直观地理解随机 IO 和顺序 IO 对性能的影响,我们可以以一个简单的文件读取操作为例。假设我们有一个大小为 1GB 的文件,存储在内存中。如果采用顺序 IO 的方式读取这个文件,内存可以按照文件的存储顺序,连续地将数据读取出来,可能只需要几毫秒的时间就能完成整个文件的读取。但如果采用随机 IO 的方式,每次读取一个随机位置的数据块,由于需要频繁地进行内存寻址操作,读取相同大小的文件可能需要几十毫秒甚至更长的时间,这会显著降低系统的响应速度。在实际的计算机应用中,许多程序和系统都需要根据不同的业务需求,合理地选择随机 IO 或顺序 IO 方式,以达到最佳的性能表现。

三、内存 IO与操作系统

3.1用户空间与内核空间的 “楚河汉界”

在操作系统的世界里,内存就像是一片广阔的领土,被划分为了两个截然不同的区域:用户空间和内核空间 。这两个区域就如同楚河汉界一般,有着明确的界限和分工。

以 32 位操作系统为例,其寻址空间为 4GB(2 的 32 次方),这就好比是一个拥有 4GB 容量的大仓库。操作系统将这个大仓库一分为二,最高的 1GB 空间被划分为内核空间,供操作系统内核使用;而剩下的 3GB 空间则分给了各个用户进程,也就是用户空间 。在 Linux 系统中,这种划分尤为典型,内核空间就像是仓库中一个戒备森严的特殊区域,只有操作系统内核这个 “管理员” 才有权限进入和操作,它可以访问受保护的内存空间,也能够直接与底层硬件设备进行交互。比如,当电脑需要读取硬盘上的数据时,内核空间就会负责与硬盘控制器进行通信,安排数据的读取工作。

图片

而用户空间则是普通应用程序的 “活动地盘”,像我们日常使用的办公软件、游戏、浏览器等应用程序,都运行在用户空间中。这里的程序只能在规定的范围内活动,它们不能直接访问内核空间的数据,也不能随意操作硬件设备。这就像是普通员工只能在自己的办公区域内工作,不能随意闯入管理员的专属区域。用户空间的存在,有效地保护了操作系统内核的安全,避免了应用程序因错误操作而导致系统崩溃的风险。

 尽管用户空间和内核空间有着严格的界限,但它们并不是完全孤立的,在内存 IO 过程中,两者需要密切协作。当应用程序需要进行 IO 操作,比如读取文件或者向网络发送数据时,它会向内核空间发起请求,内核空间接收到请求后,会利用自己的权限和资源,完成实际的 IO 操作,然后再将结果返回给用户空间的应用程序。这种协作机制,确保了整个计算机系统的高效运行。

那为什么要这样划分出空间范围呢?

也很好理解,毕竟操作系统身份高贵,太重要了,不能和用户应用程序在一起玩耍,各自的数据都要分开存储并且严格控制权限不能越界。这样才能保证操作系统的稳定运行,用户应用程序太不可控了,不同公司或者个人都可以开发,碰到坑爹的误操作或者恶意破坏系统数据直接宕机玩完了。隔离后应用程序要挂你就挂,操作系统可以正常运行。

简单说,内核空间 是操作系统 内核代码运行的地方用户空间 是 用户程序代码运行的地方。当应用进程执行系统调用陷入内核代码中执行时就处于内核态,当应用进程在运行用户代码时就处于用户态

同时内核空间可以执行任意的命令,而用户空间只能执行简单的运算,不能直接调用系统资源和数据。必须通过操作系统提供接口,向系统内核发送指令。

一旦调用系统接口,应用进程就从用户空间切换到内核空间了,因为开始运行内核代码了。

简单看几行代码,分析下是应用程序在用户空间和内核空间之间的切换过程:

复制

str = "i am qige" // 用户空间
x = x + 2
file.write(str) // 切换到内核空间
y = x + 4 // 切换回用户空间
  • 1.
  • 2.
  • 3.
  • 4.

上面代码中,第一行和第二行都是简单的赋值运算,在用户空间执行。第三行需要写入文件,就要切换到内核空间,因为用户不能直接写文件,必须通过内核安排。第四行又是赋值运算,就切换回用户空间

用户态切换到内核态的3种方式:

  1. 系统调用。也称为 System Call,是说用户态进程主动要求切换到内核态的一种方式,用户态进程使用操作系统提供的服务程序完成工作,比如上面示例代码中的写文件调用,还有像 fork() 函数实际上就是执行了一个创建新进程的系统调用。而系统调用的机制其核心还是使用了操作系统为用户特别开放的一个中断来实现。
  2. 异常。当CPU在用户空间执行程序代码时发生了不可预期的异常,这时会触发由当前运行进程切换到处理此异常的内核相关程序中,切换到内核态,比如缺页异常。
  3. 外围设备的中断。当外围设备完成用户请求的某些操作后,会向CPU发送相应的中断信号,这时CPU会暂停执行下一条即将执行的指令转而去执行与中断信号对应的处理程序,如果当前正在运行用户态下的程序指令,自然就发了由用户态到内核态的切换。比如硬盘数据读写完成,系统会切换到中断处理程序中执行后续操作等。

以上3种方式,除了系统调用是进程主动发起切换,异常和外围设备中断是被动切换的;查看 CPU 时间在 User Space 与 Kernel Space 之间的分配情况,可以使用top命令。它的第三行输出就是 CPU 时间分配统计。

3.2系统调用:用户与内核的 “通信使者”

那么,用户空间的应用程序是如何与内核空间进行沟通和协作的呢?这就不得不提到系统调用(System Call),它就像是用户与内核之间的 “通信使者”,负责传递双方的请求和响应 。

system_call()片段

复制

...pushl %eax    /*将系统调用号压栈*/
SAVE_ALL
...
cmpl$(NR_syscalls), %eax    /*检查系统调用号
Jb nobadsys
Movl $(-ENOSYS), 24(%esp)   /*堆栈中的eax设置为-ENOSYS, 作为返回值
Jmp ret_from_sys_call
nobadsys:
…
call  *sys_call_table(,%eax,4) #调用系统调用表中调用号为eax的系统调用例程
movl %eax,EAX(%esp) #将返回值存入堆栈中
Jmp ret_from_sys_call
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 首先将系统调用号(eax)和可以用到的所有CPU寄存器保存到相应的堆栈中(由SAVE_ALL完成);
  • 对用户态进程传递过来的系统调用号进行有效性检查(eax是系统调用号,它应该小于 NR_syscalls)
  • 如果是合法的系统调用,再进一步检测该系统调用是否正被跟踪;
  • 根据eax中的系统调用号调用相应的服务例程。
  • 服务例程结束后,从eax寄存器获得它的返回值,并把这个返回值存放在堆栈中,让其位于用户态eax寄存器曾存放的位置。
  • 然后跳转到ret_from_sys_call(),终止系统调用程序的执行。

SAVE_ALL宏定义

复制

#define SAVE_ALL  
cld; 
pushl %es;  
pushl %ds; 
pushl %eax;  
pushl %ebp;  
pushl %edi;  
pushl %esi;  
pushl %edx; 
pushl %ecx; 
pushl %ebx; 
movl $(__KERNEL_DS),%edx; 
movl %edx,%ds;  
movl %edx,%es;
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 将寄存器中的参数压入到核心栈中(这样内核才能使用用户传入的参数。)
  • 因为在不同特权级之间控制转换时,INT指令不同于CALL指令,它不会将外层堆栈的参数自动拷贝到内层堆栈中。所以在调用系统调用时,必须把参数指定到各个寄存器中

当用户程序进行IO读写时,通常会依赖底层的read和write两大系统调用。虽然不同操作系统中这两个系统调用的名称和形式可能略有差异,但它们的基本功能是一致的。在Linux 系统中,系统调用read用于从文件或设备中读取数据,而 write 则用于将数据写入文件或设备。

以读取文件为例,当应用程序调用read系统调用时,它会向内核传递一些参数,比如文件描述符(用于标识要读取的文件)、数据存储的缓冲区地址以及要读取的数据长度等 。内核接收到这些参数后,会根据文件描述符找到对应的文件,并从文件中读取指定长度的数据。但这个读取过程并不是直接将数据从物理设备(如磁盘)读取到应用程序的内存中,而是先将数据读取到内核缓冲区。内核缓冲区就像是一个临时的数据中转站,数据会在这里停留一段时间。然后,内核再将数据从内核缓冲区复制到应用程序的进程缓冲区(也就是用户空间中应用程序指定的内存区域),这样应用程序就成功地读取到了文件中的数据 。

在这个过程中,系统调用起到了关键的桥梁作用。它实现了用户空间与内核空间的数据交换,让应用程序能够借助内核的强大功能来完成各种 IO 操作。同时,系统调用也提供了一种安全的机制,确保应用程序只能按照规定的方式访问内核资源,避免了非法访问和操作带来的安全隐患。例如,在 Windows 系统中,应用程序调用 WriteFile 函数进行文件写入操作时,实际上也是通过系统调用将数据传递给内核,由内核负责将数据写入磁盘。不同的操作系统可能会采用不同的方式来实现系统调用,比如在 x86 体系结构中,通常是通过中断指令(如 INT 0x80)来触发系统调用,而在现代的 64 位系统中,可能会使用更高效的 syscall 指令 。但无论采用何种方式,系统调用都是用户空间与内核空间交互的重要途径,对于内存 IO 以及整个计算机系统的运行都起着不可或缺的作用。

3.3 IO工作原理

无论是 Socket 还是文件的读写,用户程序进行 IO 的操作时,用到的 read&write 两个系统调用,都不负责数据在内核缓冲区和磁盘之间的交换;底层的读写交换,是由操作系统 kernel 内核完成的。

以磁盘 IO 为例:

  • read 系统调用,并不是把数据直接从物理设备读数据到内存;而是把数据从内核缓冲区复制到进程缓冲区
  • write 系统调用,也不是直接把数据写入到物理设备;而是把数据从进程缓冲区复制到内核缓冲区

图片

四、内存IO的性能奥秘

4.1内存延迟:时间的枷锁

在内存 IO 的世界里,内存延迟就像是套在数据传输速度上的 “枷锁”,而 CL、tRCD、tRP、tRAS 这几个参数,则是构成这把 “枷锁” 的关键部件 。

CL(Column Address Latency),即列地址选通延迟,是内存时序中最为关键的参数之一,它就像一个短跑运动员起跑时的反应时间,代表了从内存控制器发出读取命令到数据开始传送之间的延迟时间。CL 的值越小,说明内存的反应速度越快,能够更快地将数据传递给 CPU。例如,对于 DDR4 内存来说,常见的 CL 值可能在 15 - 20 之间,如果一款内存的 CL 值为 15,那么在同等条件下,它的数据传输速度就会比 CL 值为 20 的内存更快。

tRCD(Row Address to Column Address Delay),行地址传输到列地址的延迟时间,它是内存延迟的另一个重要组成部分。在内存的工作过程中,需要先激活行地址,然后才能访问该行中的列地址,tRCD 就表示从接收到行地址信号后,到能够访问列地址之间所需等待的时钟周期数。这个过程就好比你在图书馆找书,先找到了存放书籍的书架(行地址),然后还需要在书架上找到具体的某本书(列地址),而 tRCD 就是从找到书架到找到书之间所花费的时间。对于 DDR4 内存,tRCD 的值通常在 12 - 25 个时钟周期左右,不同的内存规格和品牌,tRCD 的值会有所差异。

tRP(RAS Precharge Time),行预充电时间,它决定了内存从一次操作结束到下一次行激活开始之间的等待时间。当内存完成一次读写操作后,需要对行地址进行预充电,以便为下一次的访问做好准备。这个过程类似于运动员在比赛前的热身,虽然看似简单,但却是必不可少的环节。tRP 的时间长短以时钟周期为单位,对于 DDR4 内存,tRP 一般在 10 - 20 个时钟周期左右。如果 tRP 的值设置过长,会导致内存的访问效率降低;而如果设置过短,可能会影响内存的稳定性。

tRAS(RAS Active Time),行激活时间,它表示行激活命令与预充电命令之间的最小时钟周期数。tRAS 的值直接影响着内存的读写性能,一般来说,tRAS 的值会比其他几个参数要大一些。例如,对于 DDR4 内存,tRAS 的值可能在 30 - 50 个时钟周期之间。tRAS 的设置需要综合考虑内存的频率、稳定性以及其他时序参数等因素,如果 tRAS 设置不当,可能会导致内存无法正常工作或者出现数据错误。

在实际应用中,我们可以通过调整这些内存延迟参数来优化内存性能。比如,在 BIOS 中,有经验的用户可以手动设置 CL、tRCD、tRP、tRAS 等参数的值。一般来说,将这些参数的值设置得越低,内存的延迟就越小,性能也就越高。但是,过低的参数设置可能会导致内存的稳定性下降,甚至出现系统蓝屏、死机等问题。因此,在优化内存延迟参数时,需要在性能和稳定性之间找到一个平衡点。同时,不同的主板和内存对参数的支持范围也有所不同,在调整参数之前,最好先查阅主板和内存的说明书,了解其推荐的参数设置范围。

4.2缓存与局部性原理:速度的秘密武器

为了突破内存延迟这把 “枷锁” 对性能的限制,计算机系统引入了 CPU 缓存(L1、L2、L3),它就像是一把强大的 “秘密武器”,能够显著提升内存 IO 的性能 。

CPU 缓存是位于 CPU 和主内存之间的高速存储区域,按照距离 CPU 核心的远近和性能的高低,可分为 L1 缓存、L2 缓存和 L3 缓存 。L1 缓存集成在 CPU 核心内部,与处理器核心非常接近,速度最快,通常分为 L1 指令缓存(I-cache)和 L1 数据缓存(D-cache),分别用于存储指令和数据,其容量相对较小,一般在几十 KB 到几百 KB 之间。L2 缓存可能集成在单个核心内部,或者与多个核心共享,速度比 L1 缓存稍慢,但仍然比主内存快很多,容量比 L1 缓存大,通常在几百 KB 到几 MB 之间。L3 缓存通常是一个较大的缓存,被整个 CPU 的所有核心共享,速度比 L1 和 L2 缓存慢,但比主内存快很多,容量最大,通常在几 MB 到几十 MB 之间 。

当 CPU 需要读取数据时,会首先在 L1 缓存中查找,如果在 L1 缓存中找到了所需的数据(这被称为缓存命中),那么 CPU 可以在极短的时间内获取到数据,大大提高了数据访问的速度。如果在 L1 缓存中没有找到数据(缓存未命中),CPU 会接着在 L2 缓存中查找,若 L2 缓存也未命中,则继续在 L3 缓存中查找。只有当 L1、L2、L3 缓存都未命中时,CPU 才会去主内存中读取数据,而从主内存中读取数据的速度要比从缓存中读取慢得多,这就会导致内存 IO 的延迟增加。

那么,CPU 缓存为什么能够如此有效地提升内存 IO 性能呢?这就要归功于数据访问的局部性原理。局部性原理主要包括时间局部性(Temporal Locality)和空间局部性(Spatial Locality) 。

时间局部性是指如果一个数据项被访问,那么在不久的将来它很可能再次被访问。例如,在一个循环结构中,循环变量和循环体内的数据会在每次迭代中被重复访问。当 CPU 第一次访问这些数据时,会将它们加载到缓存中,后续再次访问时,就可以直接从缓存中获取,而不需要再次访问主内存,从而大大提高了数据访问的速度。

空间局部性则是指如果一个数据项被访问,那么与它相邻的数据项也很可能在不久的将来被访问。因为程序中的数据通常是按顺序存储和访问的,尤其是在数组或列表等数据结构中。例如,在遍历一个数组时,当 CPU 访问数组中的某个元素时,它很可能紧接着会访问该元素相邻的下一个元素。利用空间局部性原理,CPU 在从主内存读取数据时,会将该数据所在的一个数据块(通常称为缓存行,cache line)一起加载到缓存中,这样当下次访问相邻数据时,就可以直接从缓存中获取,减少了对主内存的访问次数 。

为了更好地理解缓存和局部性原理的作用,我们可以通过一个简单的例子来说明。假设我们有一个程序需要对一个大型数组进行求和操作。如果没有 CPU 缓存,每次访问数组中的元素时,CPU 都需要从主内存中读取数据,由于主内存的访问速度相对较慢,这个求和操作将会花费较长的时间。但是,有了 CPU 缓存之后,当 CPU 第一次访问数组中的某个元素时,会将该元素所在的缓存行加载到缓存中,而缓存行中包含了该元素以及相邻的一些元素。在后续的访问中,CPU 可以直接从缓存中获取这些相邻元素的数据,大大提高了数据访问的速度,从而加快了整个求和操作的执行效率。

在实际的计算机应用中,我们可以通过优化程序的内存访问模式,充分利用缓存和局部性原理来提高系统的整体性能。比如,在编写代码时,尽量将频繁访问的数据和代码放在一起,以提高时间局部性;对于数组等数据结构的访问,尽量按照顺序进行,以提高空间局部性。同时,一些高级编程语言和编译器也会自动进行一些优化,以充分利用缓存和局部性原理,例如,编译器会对循环进行优化,将循环体内的数据访问尽可能地集中在一个较小的内存区域内,从而提高缓存的命中率 。

五、内存IO的应用与优化

5.1实际应用中的内存 IO

在数据库系统中,内存 IO 扮演着至关重要的角色。以 MySQL 数据库为例,当我们执行一条查询语句时,数据库首先会在内存中查找是否有所需的数据。如果数据在内存中(即缓存命中),那么数据库可以快速地将数据返回给用户,大大提高了查询的响应速度。这是因为内存的访问速度远远快于磁盘,从内存中读取数据可以避免磁盘 IO 带来的高延迟。

例如,在一个电商系统中,用户查询商品信息时,数据库可以通过内存 IO 快速返回商品的名称、价格、库存等数据,让用户能够迅速得到结果,提升了用户体验。但如果数据不在内存中(缓存未命中),数据库就需要从磁盘中读取数据,并将其加载到内存中,这个过程涉及到大量的磁盘 IO 操作,会显著增加查询的时间。因此,数据库通常会使用缓存机制,如 InnoDB Buffer Pool,来尽可能地将热点数据存储在内存中,减少磁盘 IO 的次数,提高系统的整体性能 。

文件系统操作也离不开内存 IO 的支持。当我们在电脑上打开一个文件时,操作系统会先将文件的部分数据读取到内存中,这样后续对文件的读取和修改操作就可以直接在内存中进行,而不需要频繁地访问磁盘。这不仅提高了文件操作的速度,还减少了磁盘的磨损。比如,我们在使用 Word 编辑文档时,每一次的文字输入、格式调整等操作,都是先在内存中进行处理,只有当我们保存文件时,操作系统才会将内存中的数据写入磁盘。而且,文件系统还会利用内存缓存来提高文件访问的效率,它会将最近访问过的文件数据和元数据(如文件大小、创建时间、权限等)缓存到内存中,当再次访问相同的文件时,可以直接从内存中获取,避免了重复的磁盘读取操作 。

在服务器端编程中,内存 IO 同样发挥着关键作用。以 Web 服务器为例,当它接收到客户端的请求时,需要快速地读取和处理相关的数据,并将响应结果返回给客户端。这就要求服务器能够高效地进行内存 IO 操作,以应对大量的并发请求。例如,在一个高流量的电商网站中,服务器需要同时处理成千上万的用户请求,如商品浏览、下单、支付等操作。通过合理地利用内存 IO,服务器可以快速地读取用户请求数据,查询数据库获取相关信息,然后将处理结果返回给用户,保证了网站的流畅运行和快速响应。同时,服务器还可以使用内存缓存来存储一些常用的数据,如热门商品信息、用户登录状态等,减少对数据库的访问压力,提高系统的性能和吞吐量 。

5.2优化策略:提升内存 IO 性能的秘诀

为了充分发挥内存 IO 的优势,提高计算机系统的性能,我们可以采用一系列的优化策略。

合理使用缓存是提升内存 IO 性能的重要方法之一。缓存就像是一个高速的数据存储区域,它可以存储经常访问的数据,当再次需要这些数据时,可以直接从缓存中获取,而不需要从速度较慢的内存或磁盘中读取。除了前面提到的 CPU 缓存和数据库缓存外,操作系统也提供了文件系统缓存。

在 Linux 系统中,文件系统缓存会将最近读取或写入的文件数据存储在内存中,当应用程序再次访问相同的文件时,操作系统可以直接从内存中提取数据,而无需再次访问磁盘,从而大大降低了 IO 延迟,提高了系统的响应性能 。我们还可以在应用程序层面构建自己的缓存机制。比如,在一个基于 Java 开发的 Web 应用中,可以使用 Guava Cache 来缓存一些常用的数据,如用户信息、配置参数等。通过设置合理的缓存策略,如缓存过期时间、最大缓存容量等,可以有效地提高数据的访问速度,减少对数据库和文件系统的 IO 压力 。

优化数据结构也能显著提升内存 IO 性能。不同的数据结构在内存中的存储方式和访问效率各不相同,选择合适的数据结构可以减少内存的使用量和 IO 操作的次数。例如,在处理大量的键值对数据时,哈希表(Hash Table)是一种非常高效的数据结构。它通过哈希函数将键映射到一个特定的位置,从而实现快速的查找操作。相比于链表(Linked List)等其他数据结构,哈希表的查找时间复杂度平均为 O (1),大大提高了数据的访问速度。这意味着在进行内存 IO 操作时,能够更快地定位和读取所需的数据,减少了 IO 延迟 。

再比如,在需要频繁进行插入和删除操作的场景中,动态数组(如 Java 中的 ArrayList)可能不是最佳选择,因为每次插入或删除元素时,可能需要移动大量的元素,导致内存IO开销增大。而链表则更适合这种场景,因为链表的插入和删除操作只需要修改指针,不需要移动大量的数据,从而减少了内存IO的操作次数 。

采用异步 IO 也是优化内存 IO 性能的有效手段。在传统的同步 IO 模式下,当应用程序发起一个 IO 操作时,它会一直等待该操作完成,才能继续执行后续的代码。这就好比你去餐厅点餐,服务员在给你上菜之前,你只能干等着,不能做其他事情。而在异步 IO 模式下,应用程序发起 IO 操作后,可以继续执行其他任务,当 IO 操作完成时,系统会通过回调函数或事件通知应用程序。这样就提高了程序的并发性能,减少了 IO 操作对程序执行流程的阻塞 。

在 Node.js 中,其核心的异步 IO 模型使得它非常适合处理高并发的网络应用。当 Node.js 应用程序发起一个文件读取操作时,它不会等待文件读取完成,而是继续执行其他代码,如处理其他网络请求。当文件读取完成后,系统会触发一个回调函数,将读取到的数据传递给应用程序进行后续处理。这种异步 IO 的方式,使得 Node.js 能够在处理大量并发请求时,依然保持高效的性能 。

内存 IO 在数据库读写、文件系统操作、服务器端编程等众多实际应用场景中都起着不可或缺的作用。通过合理使用缓存、优化数据结构、采用异步 IO 等优化策略,我们可以有效地提升内存 IO 的性能,让计算机系统运行得更加高效、流畅,为我们的工作和生活带来更好的体验 。

行业拓展

分享一个面向研发人群使用的前后端分离的低代码软件——JNPF。

基于 Java Boot/.Net Core双引擎,它适配国产化,支持主流数据库和操作系统,提供五十几种高频预制组件,内置了常用的后台管理系统使用场景和实用模版,通过简单的拖拉拽操作,开发者能够高效完成软件开发,提高开发效率,减少代码编写工作。

JNPF基于SpringBoot+Vue.js,提供了一个适合所有水平用户的低代码学习平台,无论是有经验的开发者还是编程新手,都可以在这里找到适合自己的学习路径。

此外,JNPF支持全源码交付,完全支持根据公司、项目需求、业务需求进行二次改造开发或内网部署,具备多角色门户、登录认证、组织管理、角色授权、表单设计、流程设计、页面配置、报表设计、门户配置、代码生成工具等开箱即用的在线服务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/92411.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/92411.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

V4L2摄像头采集 + WiFi实时传输实战全流程

📖 推荐阅读:《Yocto项目实战教程:高效定制嵌入式Linux系统》 🎥 更多学习视频请关注 B 站:嵌入式Jerry V4L2摄像头采集 WiFi实时传输实战全流程 1. 实战场景概述 目标: 嵌入式设备(如RK3588/正点原子开发…

Java 之 设计模式

1.单例模式1. ​​饿汉式(Eager Initialization)​​​​核心原理​​:类加载时立即创建实例,通过静态变量直接初始化。​​代码示例​​:public class Singleton {private static final Singleton INSTANCE new Sing…

[激光原理与应用-185]:光学器件 - BBO、LBO、CLBO晶体的全面比较

一、相同点非线性光学晶体属性BBO、LBO、CLBO均为非中心对称晶体,具备非线性光学效应,广泛应用于激光频率转换(如倍频、三倍频、和频、差频)、光学参量振荡(OPO)及电光调制等领域。宽透光范围三者均覆盖紫外…

Android APN加载耗时优化可行性分析

背景 根据Android系统底层机制和行业实践,本文讨论 APN 加载耗时从4.2s降至0.8s的数据合理性和技术可行性,需结合具体优化手段和硬件环境综合分析。 以下是关键判断依据及行业参考: ⚙️ 一、APN加载耗时基准参考 未优化场景的典型耗时 首次开机或重置后:APN需从apns-con…

mysql进阶-sql调优

概述优化索引在MySQL初阶的课程中已经介绍了索引,我们知道InnoDB存储引擎使⽤B树作为索引默认的数据结构来组织数据,为频繁查询的列建⽴索引可以有效的提升查询效率,那么如何利⽤索引编写出⾼效的SQL查询语句?以及如何分析某个查询…

海量数据处理问题详解

1.从a,b两个文件各存放50亿个url(每个url大小为64B),如何在内存为4G中查找a,b中相同的url 计算各文件存放大小:50亿*64B 大约为320G,而内存只有4G,显然存放不下,此时我们…

AI 记忆管理系统:工程实现设计方案

本文档为《从“健忘”到“懂我”:构建新一代AI记忆系统》中所述理念的详细工程实现方案。它将聚焦于技术选型、模块设计、数据流转和核心算法,为开发团队提供清晰的落地指引。 1. 系统架构与技术选型 为实现分层记忆与读写分离的设计理念,我们…

Linux驱动学习day26天(RS485)

一、原理通过芯片将232信号转换成485信号,485表示0和1的方法:Va - Vb 的电压差在2~6V时表示1,Va - Vb 的电压差在-2~-6V时表示0。这样传输不容易受到干扰,并且传输距离长。我们需要做的事情就是发送:使能DE(driver ena…

从零构建TransformerP1-了解设计

欢迎来到啾啾的博客🐱。 记录学习点滴。分享工作思考和实用技巧,偶尔也分享一些杂谈💬。 有很多很多不足的地方,欢迎评论交流,感谢您的阅读和评论😄。 目录引言1 概念回顾1.1 序列任务1.1.1 将序列变成模型…

JVM 终止机制详解:用户线程与守护线程

用户线程未执行完是否会阻止 JVM 终止?答案是:取决于线程类型。让我详细解释: 核心规则 #mermaid-svg-bg5xpyMAeRWNGGk2 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-bg5xpyMAe…

Linux Vim 常用快捷键

Vim中最常用的快捷键,熟练掌握它们可以大大提高编辑效率。移动光标h- 左移j- 下移k- 上移l- 右移w- 移动到下一个单词开头b- 移动到上一个单词开头e- 移动到单词末尾0- 移动到行首$- 移动到行尾gg- 移动到文件开头G- 移动到文件末尾:n- 跳转到第n行插入模式i- 在光标…

【Bellman负环】Cycle Finding

题目翻译给定一个有向图,你的任务是判断它是否包含负环,并给出这样一个环的示例。输入 第一行输入两个整数 n 和 m:分别表示节点数和边数。节点编号为 1, 2, ..., n。 接下来 m 行描述边,每行有三个整数 a, b, c:表示存…

数据结构(六):树与二叉树

一、树的基本概念树的定义树(Tree)是由 n(n ≥ 0)个节点组成的有限集合,当 n 0 时称为空树。非空树中:有且仅有一个根节点(Root);其余节点可以划分为若干个互不相交的子…

《Linux运维总结:Shell 脚本日志输出工具》

总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:Linux运维实战总结 一、Shell 脚本日志输出工具 1、提供的 logger() 函数是一个非常实用的 Shell 脚本日志输出工具,它支持带时间戳和…

select ... for update阻塞

总结阻塞规则:当前事务持有的锁 (来自 SELECT ... FOR UPDATE)其他事务尝试的操作是否会被阻塞?原因排他锁 (X Lock) 在行 R 上SELECT ... FROM ... (普通查询)否读快照 (MVCC),不需要锁排他锁 (X Lock) 在行 R 上SELECT ... FROM ... FOR UP…

LangChain4j终极指南:Spring Boot构建企业级Agent框架

LangChain4j Spring Boot 构建企业级 Agent 框架深度指南(3000字终极版)一、架构设计:面向未来的企业级智能体系统1.1 分层架构设计1.2 核心组件职责1.3 企业级特性设计二、核心模块深度实现2.1 智能体协作引擎(LangGraph4j高级应…

前端基础之《Vue(29)—Vue3 路由V4》

一、安装1、命令cnpm install vue-router42、配置映射为src路径(1)安装对应配置cnpm install types/node(2)配置vite.config.tsimport { defineConfig } from vite import vue from vitejs/plugin-vue import * as path from &quo…

9.2 通过DuEDrawingControl把eDrawing嵌入到C#中显示

本文介绍如何通过DuEDrawingControl控件在C#的WPF中进行3D的显示。 DuEDrawingControl在实际应用中可以应用于以下场景: 1.CAD文件预览:在Winform或WPF应用程序中,用户可以预览装配文件、工程图文件等,方便进行设计和审核。 2.打印管理:控件支持打印文件的管理,用…

《Vuejs设计与实现》第 13 章(异步组件和函数式组件

目录 13.1 异步组件的问题与解决方法 13.2 异步组件的实现原理 3.2.1 封装 defineAsyncComponent 函数 13.2.2 超时与 Error 组件 13.2.3 延迟与 Loading 组件 13.2.4 重试机制 13.3 函数式组件 13.4 总结 在第12章,我们深入探讨了组件的基本含义和实现方式…

Python的七大框架对比分析

谈到“Python 七大框架”时,通常指 Django、Flask、FastAPI、Tornado、Sanic、AIOHTTP 和 Pyramid 这七位“常驻嘉宾”。它们各有气质,适合的场景也截然不同。1. DjangoDjango 像一辆全副武装的重型越野:出厂就配好 ORM、后台管理、权限、缓存…