一、大(巨)页
大(巨)页,很好理解,就是的大的页。说这个大页前,得先把计算机中内存的管理简单说明一下,否则可能对于一些新手或者把操作系统中内存管理的方法的开发者不太友好。最早的计算机,是没有内存管理这一说的,程序直接向内存里写,直接操作内存;而后出现了分区管理(静态的内存分配和动态的内存分配),目的只有一个能够更好的利用内存。前面这些都可以算是早期的内存管理,简单粗暴,但好用,也好出意外。随着计算机硬件技术的不断发展,可以容纳更多的程序在内存中同时运行。特别是随着操作系统的出现,多任务成为必然,那么对内存管理也就提到了一个重要的程度。这时,计算机的先行者们分别从段和页两个方面开始处理内存的管理,它们各有优缺点。分页可以更好的去除外部的内存碎片,管理简单高效并且支持虚拟内存;当然也有缺点,仍然无法解决页内的碎片问题和管理页一定会存在着开销。分段管理的优点是更符合开发者的认知,像代码段、数据段等等,耳熟能详。同时,不同的分段可以有效的保护数据和实现共享,并且可以动态对段进行扩展。当然缺点也很明显,最典型的就是产生外部的内存碎片,管理相对复杂。所以就有高手想到了把二者结合起来。在X86的32位架构操作系统中,段页式管理是标准,即使到了64位系统,为了保持向下的兼容,X86上的操作系统仍然保留着段这个概念,但几乎已经没用了实际作用。大家可以简单理解为在64位的系统中,已经使用了纯分页的管理。
好,现在就可以说什么是大页了。一般来说,在普通的系统分页机制下,一个页(Page)的大小是4K。可以这样说,这个大小是目前主流的平台的分页的大小。但随着软硬件技术的发展,它们都支持将分页的大小提高到了2M。在一些特定的场景下还支持1G大小的分页。当然,不是说必然是这种大小,不同的平台可能也会有细微的不同,但一般来说,1G大小的分页一定是大页。
是不是很简单,大的内存页,就是大页,很容易明白。
这里再简单的说明一下,主要是针对一些才刚刚学习的小白,所谓分页,大家可以理解成书籍的一页页的纸,在字体样式固定的情况下,一页的大小决定了能印刷多少字。当然,页面越大,字数也就越多;反之则越少。大页可以理解成某些书籍采用了特别大的页(比如小人书之比大学的课本)。
二、大页的作用
那么好好的分出来的页的大小,为什么要搞成那么大呢?先看一个例子,大家都知晓一些军队的编制,从班到排到连到营到团到师到军再到集团军。可以理解班就是一个基础的页,那么如果一项命令需要快速的传达到班,则需要从集团军向下一级级的传递,大家很容易想到,这效率是不是有点低?随着信息化的到来,可不可以撤掉其中的一些层级,采用较为扁平化的管理,比如把军、师和团的建制去除,设一个旅的编制,然后,集团军直接操作旅,由旅直接下放到营,而忽略班排连。大家再看看现代的大国们的军改方向,基本就是这样(当然,实际情况可能各有不同,也不可能像这里说的这么简单和理想)。此时,营就是一个大页,集团军就可以管理更多的部队人数。
内存也是如此,如果内存管理是以4K为基础的话,在早中期,计算机的物理内存和虚拟内存都不大的情况下,它是相对合理的和高效的。但当操作系统的虚拟内存增加到64位后,这种大小的页导致管理的页表开始剧烈的膨胀,不但占用浪费了更多的空间也由于使用了更多层级的页表而导致效率的低下。同时,TLB缓存的内存数量相比之下变得太少,它会导致内存命中率的严重下降从而产生缺页访问。学过操作系统的都知道,缺页会导致性能的开销巨大。所以大页就在这种情况下产生了。
其实1G可能大家现在认为是一个大页,但所谓的大小永远是相对的。假设物理内存的大小已经超过了256位,虚拟内存已经达到了1024位,那时如果还是采用页机制管理的话,一页可能标准的就是1T了。那时的大页可能会更大。当然,这种想法只是一种简单的摊大饼的想法,可能真到了那种情况会出现更优秀的管理方法了。
综合上面的分析,可以明白了,大页的优缺点,其优点主要有:
- 提升TLB缓存的命中率
- 由于降低了页表的层级从而提高了访问的效率
- 由于大量的连续内存的访问,提高了访问速度和效率
缺点主要有: - 不恰当的应用可能导致内存碎片的迅速增加并浪费大量的内存
- 大页管理相对较难,对物理内存和系统的开发都有较高的要求。由于大页一般是静态分配,所以其动态分配和和释放要复杂
- 大页的分配比较麻烦,毕竟寻找一个如此大的连续的页面相对要难很多
三、大页的应用
既然大页有大页的好处,标准页有标准页的优秀之处,那么到底在什么情况下使用大页呢?毕竟大家常用的电脑和服务器,一般来说都是使用的4K做为标准页。
- 海量存储的数据库
非常容易想到的便是海量型的数据库,特别是基于内存的海量型数据库。 - 大数据的处理
经常对大数据进行处理和转发的情况下,也需要大页内存管理,如Hadoop、Flink和Spakr等以及前面分析的DPDK。 - 高性能和科学计算
大量的数据存储在内存中,尽量不要产生缺页中断。大页就可以满足这种情况从而提高计算的速度和效率。比如需要同时对大小1M的1000张图像进行分析,大页就很有优势。 - 虚拟化管理
这个看上去比较难理解,其实换个角度就好理解了。虚拟化管理的单元是一个个的硬件甚至是一个虚拟的电脑,那么其分配的单元一定不会太小。现在的计算机谁还看到过内存只有4K的,一般网上的云服务器最低也得1G吧。
四、总结
正如刚刚所讲,大和小永远是相对的。技术的发展不会停滞,设计和架构的思想也在不断完善。技术的发展不是简单的一加一,在量变发展到一定程度后,就会产生质变。也就是说,可能以后就没有了所谓的段页的管理,产生更新的技术框架。所以对广大的开发者来说,永远不要停下自己追寻技术前沿的脚步,才是根本。