首页 » 未分类 » 浅析linux内存管理

浅析linux内存管理

 

1.Linux内存管理的主要内容

  1. 虚拟内存管理
  2. 内核空间内存管理
  3. 用户空间内存管

物理内存管理(页管理)

Linux内核管理物理内存是通过分页机制实现的,它将整个内存划分成无数个4k(在i386体系结构中)大小的页,从而分配和回收内存的基本单位便是内存页了。利用分页管理有助于灵活分配内存地址,因为分配时不必要求必须有大块的连续内存,系统可以东一页、西一页的凑出所需要的内存供进程使用。虽然如此,但是实际上系统使用内存时还是倾向于分配连续的内存块,因为分配连续内存时,页表不需要更改,因此能降低TLB的刷新率(频繁刷新会在很大程度上降低访问速度)。

2.虚拟内存和物理内存映射

ZONE_HIGHMEM的主要作用:通过非永久映射实现内核对896M之外的物理内存的访问,比如:实际物理内存为4G,内核直接映射了896M,之外的897M-4G内核都无法访问是无法接受的。

3.内核内存管理的目标

a.最小化管理内存所需的时间

b.最大化用于一般应用的可用内存

4.内存分页:连续内存和分散内存的取舍

Linux内核管理物理内存是通过分页机制实现的,它将整个内存划分成无数个4k(在i386体系结构中)大小的页,从而分配和回收内存的基本单位便是内存页了。

利用分页管理有助于灵活分配内存地址,因为分配时不必要求必须有大块的连续内存,系统可以东一页、西一页的凑出所需要的内存供进程使用。

虽然如此,但是实际上系统使用内存时还是倾向于分配连续的内存块,因为分配连续内存时,页表不需要更改,因此能降低TLB的刷新率(频繁刷新会在很大程度上降低访问速度)。

====>也就是说,分页机制可以实现分散的物理页的使用,为什么对连续内存的需求还是这么强烈?还是时间和效率的问题。

5.内核内存分配策略和伙伴系统(伙伴算法)

分配器主要是基于堆策略,堆就是大块内存,当用户申请内存时分配器采用的两种策略进行搜索:

a.fast-fit:找到第一块满足要求的内存就分配给用户

优点:快速,用户使用内存的效率比较高,因为很快就有回应

缺点:由于各个使用者并不是按顺序归还内存的,因此造成内存之间存在空洞,我们也称为外部碎片;

         b.best-fit:找到最合适的一块

典型分配器:buddy memoryallocation

解决的痛点:a.内存分配:将内存分为2的N次幂个区,单页或者特定页1/2/4/8...512,使用best-fit思想来响应内存请求;

b.内存归还:当内存被归还之后,查看相邻区域是否也有未使用内存,进行合理的合并,小块变大块;

存在的缺陷:内核中的使用经常是诸如:文件描述符/进程描述符等等小于或者说远小于4K的内存需要,因此产生内部碎片;

====>无论是best-fit还是fast-fit都是围绕着管理时间最小化和使用内存效率最大化两个角度展开的,说到底还是时间和空间的权衡。

6.slab分配器的产生

Linux 所使用的 slab 分配器的基础是 JeffBonwick 为 SunOS 操作系统首次引入的一种算法,Jeff 的分配器是围绕对象缓存进行的,在内核中,会为有限的对象集(例如文件描述符和其他常见结构)分配大量内存,Jeff 发现对内核中普通对象进行初始化所需的时间超过了对其进行分配和释放所需的时间,Jeff 的结论是不应该将内存释放回一个全局的内存池,而是将内存保持为针对特定目而初始化的状态。

Linux slab 分配器使用了这种思想和其他一些思想来构建一个在空间和时间上都具有高效性的内存分配器。

====>slab分配器主要是针对那些内核中小但是多而频繁的内存需求的申请和释放的特征入手,做的局部物理页的优化策略,提高效率降低时间,还是时间和空间。

7.slab分配器的组织形式、分配和回收策略

a.slab和buddy的关系

从一定程度上来说,slab分配器是依托于buddy系统的,slab会先从buddy那里分配多个连续的内存页,这些页就是slab范围内实施slab机制的原材料。

b.slab机制的组织形式

1.cache_chain和kmem_cache

在最高层是 cache_chain,这是一个 slab 缓存的链接列表,这对于 best-fit 算法非常有用,可以用来查找最适合所需要的分配大小的缓存(遍历列表),

cache_chain 的每个元素都是一个 kmem_cache 结构的引用(称为一个cache),它定义了一个要管理的给定大小的对象池。

可见:slab分配器内部使用了和buddy一样的best-fit策略,kmem_cache就是大小不一样的单个或多个内存页。

2.slabs链表和slab的扩展

每个缓存都包含了一个 slabs 列表,这是一段连续的内存块(通常都是页面),

存在 3 种 slab:

slabs_full-------完全分配的 slab

slabs_partial----部分分配的 slab

slabs_empty------空slab,或者没有对象被分配

slab 列表中的每个 slab 都是一个连续的内存块(一个或多个连续页),它们被划分成一个个对象object,

这些对象是从特定缓存中进行分配和释放的基本元素。

注意 slab 是 slab 分配器进行操作的最小分配单位,因此如果需要对 slab 进行扩展,这也就是所扩展的最小值,通常来说,每个 slab 被分配为多个对象。

3.slab分配策略

举例说明:如果有一个名叫inode_cachep的structkmem_cache节点,它存放了一些inode对象。当内核请求分配一个新的inode对象时,slab分配器就开始工作了:

a.首先要查看inode_cachep的slabs_partial链表,如果slabs_partial非空,就从中选中一个slab,返回一个指向已分配但未使用的inode结构的指针。完事之后,如果这个slab满了,就把它从slabs_partial中删除,插入到slabs_full中去,结束;

b.如果slabs_partial为空,也就是没有半满的slab,就会到slabs_empty中寻找。如果slabs_empty非空,就选中一个slab,返回一个指向已分配但未使用的inode结构的指针,然后将这个slab从slabs_empty中删除,插入到slabs_partial(或者slab_full)中去,结束;

c.如果slabs_empty也为空,那么没办法,cache内存已经不足,只能新创建一个slab了。

4.slab回收策略

slabs_empty中的内存是优先被回收的。

5.slab分配器的优点

a.减小了内存碎片化

b.提高了系统的效率,

当对象拥有者释放一个对象后,SLAB的处理是仅仅标记对象为空闲,并不做多少处理,而又有申请者申请相应大小的对象时,SLAB会优先分配最近释放的对象,这样这个对象甚至有可能还在硬件高速缓存中,有点类似管理区页框分配器中每CPU高速缓存的做法。

===>无论是buddy还是slab根本目的都是降低时间提高效率,为了实现时间和空间的权衡,需要从内存组织形式、分配策略、回收策略三个角度出发。

8.金钱理论

fast-fit:手头有钱就给,但是归还不一定能凑出再次需要的内存

buddy:把手头有的钱分为不同面值,根据需求给出最合适的面值,当有归还时凑够了零钱就换个整钱

slab: 每次都要一点点但是要的频率很高,索性给出一定数量,让其自己的分配器分配,再将有支配权的这些钱也分成更小的面值,best-fit分配

归还时也是给自己的分配器,并且重复使用,当凑够一定数量空闲的钱就归还给上级分配器;

 

虚拟地址空间分配及其与物理内存对应图

进程与内存

进程如何使用内存?

毫无疑问,所有进程(执行的程序)都必须占用一定数量的内存,它或是用来存放从磁盘载入的程序代码,或是存放取自用户输入的数据等等。不过进程对这些内存的管理方式因内存用途不一而不尽相同,有些内存是事先静态分配和统一回收的,而有些却是按需要动态分配和回收的。

对任何一个普通进程来讲,它都会涉及到5种不同的数据段。稍有编程知识的朋友都能想到这几个数据段中包含有“程序代码段”、“程序数据段”、“程序堆栈段”等。不错,这几种数据段都在其中,但除了以上几种数据段之外,进程还另外包含两种数据段。下面我们来简单归纳一下进程对应的内存空间中所包含的5种不同的数据区。

代码段:代码段是用来存放可执行文件的操作指令,也就是说是它是可执行程序在内存中的镜像。代码段需要防止在运行时被非法修改,所以只准许读取操作,而不允许写入(修改)操作——它是不可写的。

数据段:数据段用来存放可执行文件中已初始化全局变量,换句话说就是存放程序静态分配[1]的变量和全局变量。

BSS:BSS段包含了程序中未初始化的全局变量,在内存中 bss段全部置零。

heap:堆是用于存放进程运行中被动态分配的内存段,它的大小并不固定,可动态扩张或缩减。当进程调用malloc等函数分配内存时,新分配的内存就被动态添加到堆上(堆被扩张);当利用free等函数释放内存时,被释放的内存从堆中被剔除(堆被缩减)

:栈是用户存放程序临时创建的局部变量,也就是说我们函数括弧“{}”中定义的变量(但不包括static声明的变量,static意味着在数据段中存放变量)。除此以外,在函数被调用时,其参数也会被压入发起调用的进程栈中,并且待到调用结束后,函数的返回值也会被存放回栈中。由于栈的先进先出特点,所以栈特别方便用来保存/恢复调用现场。从这个意义上讲,我们可以把堆栈看成一个寄存、交换临时数据的内存区。

进程如何组织这些区域?

上述几种内存区域中数据段、BSS和堆通常是被连续存储的——内存位置上是连续的,而代码段和栈往往会被独立存放。有趣的是,堆和栈两个区域关系很“暧昧”,他们一个向下“长”(i386体系结构中栈向下、堆向上),一个向上“长”,相对而生。但你不必担心他们会碰头,因为他们之间间隔很大(到底大到多少,你可以从下面的例子程序计算一下),绝少有机会能碰到一起。

下图简要描述了进程内存区域的分布:

从用户向内核看,所使用的内存表象形式会依次经历“逻辑地址”——“线性地址”——“物理地址”几种形式(关于几种地址的解释在前面已经讲述了)。逻辑地址经段机制转化成线性地址;线性地址又经过页机制转化为物理地址。(但是我们要知道Linux系统虽然保留了段机制,但是将所有程序的段地址都定死为0-4G,所以虽然逻辑地址和线性地址是两种不同的地址空间,但在Linux中逻辑地址就等于线性地址,它们的值是一样的)。沿着这条线索,我们所研究的主要问题也就集中在下面几个问题。

  1. 进程空间地址如何管理?
  2. 进程地址如何映射到物理内存?
  3. 物理内存如何被管理?

以及由上述问题引发的一些子问题。如系统虚拟地址分布;内存分配接口;连续内存分配与非连续内存分配等。

 

进程内存空间

Linux操作系统采用虚拟内存管理技术,使得每个进程都有各自互不干涉的进程地址空间。该空间是块大小为4G的线性虚拟空间,用户所看到和接触到的都是该虚拟地址,无法看到实际的物理内存地址。利用这种虚拟地址不但能起到保护操作系统的效果(用户不能直接访问物理内存),而且更重要的是,用户程序可使用比实际物理内存更大的地址空间。

在讨论进程空间细节前,这里先要澄清下面几个问题:

第一、4G的进程地址空间被人为的分为两个部分——用户空间与内核空间。用户空间从0到3G(0xC0000000),内核空间占据3G到4G。用户进程通常情况下只能访问用户空间的虚拟地址,不能访问内核空间虚拟地址。只有用户进程进行系统调用(代表用户进程在内核态执行)等时刻可以访问到内核空间。

第二、用户空间对应进程,所以每当进程切换,用户空间就会跟着变化;而内核空间是由内核负责映射,它并不会跟着进程改变,是固定的。内核空间地址有自己对应的页表(init_mm.pgd),用户进程各自有不同的页表。

第三、每个进程的用户空间都是完全独立、互不相干的。

进程内存管理

进程内存管理的对象是进程线性地址空间上的内存镜像,这些内存镜像其实就是进程使用的虚拟内存区域(memory region)。进程虚拟空间是个32或64位的“平坦”(独立的连续区间)地址空间(空间的具体大小取决于体系结构)。要统一管理这么大的平坦空间可绝非易事,为了方便管理,虚拟空间被划分为许多大小可变的(但必须是4096的倍数)内存区域,这些区域在进程线性地址中像停车位一样有序排列。这些区域的划分原则是“将访问属性一致的地址空间存放在一起”,所谓访问属性在这里无非指的是“可读、可写、可执行等”。

如果你要查看某个进程占用的内存区域,可以使用命令cat /proc/<pid>/maps获得(pid是进程号,你可以运行上面我们给出的例子——./example &;pid便会打印到屏幕),你可以发现很多类似于下面的数字信息。

由于程序example使用了动态库,所以除了example本身使用的的内存区域外,还会包含那些动态库使用的内存区域(区域顺序是:代码段、数据段、bss段)。

我们下面只抽出和example有关的信息,除了前两行代表的代码段和数据段外,最后一行是进程使用的栈空间。

-------------------------------------------------------------------------------

08048000 - 08049000 r-xp 00000000 03:03 439029                               /home/mm/src/example

08049000 - 0804a000 rw-p 00000000 03:03 439029                               /home/mm/src/example

……………

bfffe000 - c0000000 rwxp ffff000 00:00 0

----------------------------------------------------------------------------------------------------------------------

每行数据格式如下:

(内存区域)开始-结束 访问权限  偏移  主设备号:次设备号 i节点  文件。

注意,你一定会发现进程空间只包含三个内存区域,似乎没有上面所提到的堆、bss等,其实并非如此,程序内存段和进程地址空间中的内存区域是种模糊对应,也就是说,堆、bss、数据段(初始化过的)都在进程空间中由数据段内存区域表示。

 

在Linux内核中对应进程内存区域的数据结构是: vm_area_struct, 内核将每个内存区域作为一个单独的内存对象管理,相应的操作也都一致。采用面向对象方法使VMA结构体可以代表多种类型的内存区域--比如内存映射文件或进程的用户空间栈等,对这些区域的操作也都不尽相同。

vm_area_strcut结构比较复杂,关于它的详细结构请参阅相关资料。我们这里只对它的组织方法做一点补充说明。vm_area_struct是描述进程地址空间的基本管理单元,对于一个进程来说往往需要多个内存区域来描述它的虚拟空间,如何关联这些不同的内存区域呢?大家可能都会想到使用链表,的确vm_area_struct结构确实是以链表形式链接,不过为了方便查找,内核又以红黑树(以前的内核使用平衡树)的形式组织内存区域,以便降低搜索耗时。并存的两种组织形式,并非冗余:链表用于需要遍历全部节点的时候用,而红黑树适用于在地址空间中定位特定内存区域的时候。内核为了内存区域上的各种不同操作都能获得高性能,所以同时使用了这两种数据结构。

下图反映了进程地址空间的管理模型:

进程的地址空间对应的描述结构是“内存描述符结构”,它表示进程的全部地址空间,——包含了和进程地址空间有关的全部信息,其中当然包含进程的内存区域。

进程内存的分配与回收

创建进程fork()、程序载入execve()、映射文件mmap()、动态内存分配malloc()/brk()等进程相关操作都需要分配内存给进程。不过这时进程申请和获得的还不是实际内存,而是虚拟内存,准确的说是内存区域。进程对内存区域的分配最终都会归结到do_mmap()函数上来(brk调用被单独以系统调用实现,不用do_mmap()

内核使用do_mmap()函数创建一个新的线性地址区间。但是说该函数创建了一个新VMA并不非常准确,因为如果创建的地址区间和一个已经存在的地址区间相邻,并且它们具有相同的访问权限的话,那么两个区间将合并为一个。如果不能合并,那么就确实需要创建一个新的VMA了。但无论哪种情况, do_mmap()函数都会将一个地址区间加入到进程的地址空间中--无论是扩展已存在的内存区域还是创建一个新的区域。

同样,释放一个内存区域应使用函数do_ummap(),它会销毁对应的内存区域。

如何由虚变实!

从上面已经看到进程所能直接操作的地址都为虚拟地址。当进程需要内存时,从内核获得的仅仅是虚拟的内存区域,而不是实际的物理地址,进程并没有获得物理内存(物理页面——页的概念请大家参考硬件基础一章),获得的仅仅是对一个新的线性地址区间的使用权。实际的物理内存只有当进程真的去访问新获取的虚拟地址时,才会由“请求页机制”产生“缺页”异常,从而进入分配实际页面的例程。

该异常是虚拟内存机制赖以存在的基本保证——它会告诉内核去真正为进程分配物理页,并建立对应的页表,这之后虚拟地址才实实在在地映射到了系统的物理内存上。(当然,如果页被换出到磁盘,也会产生缺页异常,不过这时不用再建立页表了)

这种请求页机制把页面的分配推迟到不能再推迟为止,并不急于把所有的事情都一次做完(这种思想有点像设计模式中的代理模式(proxy))。之所以能这么做是利用了内存访问的“局部性原理”,请求页带来的好处是节约了空闲内存,提高了系统的吞吐率。要想更清楚地了解请求页机制,可以看看《深入理解linux内核》一书。

这里我们需要说明在内存区域结构上的nopage操作。当访问的进程虚拟内存并未真正分配页面时,该操作便被调用来分配实际的物理页,并为该页建立页表项。

原文链接:浅析linux内存管理,转载请注明来源!

1