资源限制

默认情况下,容器没有资源限制,可以使用主机内核调度器允许的任意数量的给定资源。Docker 提供了多种方法来控制容器可以使用的内存量或 CPU 量,通过设置 docker run 命令的运行时配置标志来实现。本节详细介绍了何时应设置此类限制以及设置它们可能产生的影响。

许多这些功能需要您的内核支持 Linux 功能。要检查是否支持,您可以使用 docker info 命令。如果内核中禁用了某项功能,您可能会在输出末尾看到类似以下的警告:

WARNING: No swap limit support

请查阅您的操作系统文档以启用它们。另请参阅 Docker Engine 疑难解答指南 以获取更多信息。

内存

了解内存耗尽的风险

重要的是不要让正在运行的容器消耗过多的主机内存。在 Linux 主机上,如果内核检测到没有足够的内存来执行重要的系统功能,它会抛出 OOME(内存不足异常),并开始终止进程以释放内存。任何进程都有可能被终止,包括 Docker 和其他重要的应用程序。如果错误的进程被终止,这可能会有效地导致整个系统崩溃。

Docker 通过调整 Docker 守护进程的 OOM 优先级来尝试降低这些风险,使其比系统上的其他进程更不容易被终止。容器的 OOM 优先级不会被调整。这使得单个容器比 Docker 守护进程或其他系统进程更有可能被终止。您不应尝试通过手动将 --oom-score-adj 设置为极端的负数(在守护进程或容器上)或通过在容器上设置 --oom-kill-disable 来规避这些安全措施。

有关 Linux 内核 OOM 管理的更多信息,请参阅 内存不足管理

您可以通过以下方式降低因 OOME 导致系统不稳定的风险:

  • 在将应用程序投入生产之前,执行测试以了解其内存需求。
  • 确保您的应用程序仅在具有足够资源的主机上运行。
  • 限制容器可以使用的内存量,如下所述。
  • 在配置 Docker 主机的交换空间时要小心。交换空间比内存慢,但可以提供缓冲以防止系统内存耗尽。
  • 考虑将您的容器转换为 服务,并使用服务级约束和节点标签来确保应用程序仅在具有足够内存的主机上运行。

限制容器对内存的访问

Docker 可以强制执行硬内存限制或软内存限制。

  • 硬限制让容器使用的内存不超过固定数量。
  • 软限制让容器根据需要使用尽可能多的内存,除非满足某些条件,例如当内核检测到主机内存不足或发生争用时。

当单独使用或设置多个选项时,其中一些选项会产生不同的效果。

这些选项大多采用一个正整数,后跟 bkmg 后缀,分别表示字节、千字节、兆字节或千兆字节。

选项 描述
-m--memory= 容器可以使用的最大内存量。如果设置了此选项,允许的最小值为 6m(6 兆字节)。也就是说,您必须将值设置为至少 6 兆字节。
--memory-swap* 允许此容器交换到磁盘的内存量。请参阅 --memory-swap 详情
--memory-swappiness 默认情况下,主机内核可以换出容器使用的匿名页面的百分比。您可以将 --memory-swappiness 设置为 0 到 100 之间的值,以调整此百分比。请参阅 --memory-swappiness 详情
--memory-reservation 允许您指定一个小于 --memory 的软限制,当 Docker 检测到主机上发生争用或内存不足时激活。如果使用 --memory-reservation,则必须将其设置为低于 --memory 才能使其生效。因为它是软限制,所以不能保证容器不会超过该限制。
--kernel-memory 容器可以使用的最大内核内存量。允许的最小值为 6m。因为内核内存无法被换出,所以内核内存不足的容器可能会阻塞主机资源,这可能对主机和其他容器产生副作用。请参阅 --kernel-memory 详情
--oom-kill-disable 默认情况下,如果发生内存不足 (OOM) 错误,内核会终止容器中的进程。要更改此行为,请使用 --oom-kill-disable 选项。仅在您还设置了 -m/--memory 选项的容器上禁用 OOM killer。如果未设置 -m 标志,主机可能会耗尽内存,内核可能需要终止主机系统的进程以释放内存。

有关 cgroups 和内存的一般信息,请参阅 内存资源控制器 的文档。

--memory-swap 详情

--memory-swap 是一个修饰符标志,仅在同时设置了 --memory 时才有意义。使用交换空间允许容器在用完所有可用 RAM 后将多余的内存需求写入磁盘。对于经常将内存交换到磁盘的应用程序,会有性能损失。

其设置可能产生复杂的效果:

  • 如果 --memory-swap 设置为正整数,则必须同时设置 --memory--memory-swap--memory-swap 表示可以使用的内存和交换空间的总量,而 --memory 控制非交换内存的使用量。因此,如果 --memory="300m"--memory-swap="1g",则容器可以使用 300m 内存和 700m (1g - 300m) 交换空间。

  • 如果 --memory-swap 设置为 0,则该设置将被忽略,该值被视为未设置。

  • 如果 --memory-swap 设置为与 --memory 相同的值,并且 --memory 设置为正整数,则容器无法访问交换空间。请参阅 防止容器使用交换空间

  • 如果未设置 --memory-swap,但设置了 --memory,则容器可以使用与 --memory 设置一样多的交换空间(如果主机容器配置了交换空间)。例如,如果 --memory="300m" 且未设置 --memory-swap,则容器总共可以使用 600m 的内存和交换空间。

  • 如果 --memory-swap 显式设置为 -1,则允许容器使用无限的交换空间,最多可达主机系统上可用的量。

  • 在容器内部,像 free 这样的工具报告的是主机的可用交换空间,而不是容器内部的可用交换空间。不要依赖 free 或类似工具的输出来确定是否存在交换空间。

防止容器使用交换空间

如果 --memory--memory-swap 设置为相同的值,这将阻止容器使用任何交换空间。这是因为 --memory-swap 是可以使用的内存和交换空间的总量,而 --memory 仅是可以使用的物理内存量。

--memory-swappiness 详情

  • 值为 0 会关闭匿名页面交换。
  • 值为 100 会将所有匿名页面设置为可交换。
  • 默认情况下,如果您不设置 --memory-swappiness,该值将从主机继承。

--kernel-memory 详情

内核内存限制以分配给容器的总内存来表示。考虑以下情况:

  • 无限内存,无限内核内存:这是默认行为。
  • 无限内存,有限内核内存:当所有 cgroup 所需的内存量大于主机上实际存在的内存量时,这很合适。您可以将内核内存配置为永远不会超过主机上可用的内存量,而需要更多内存的容器需要等待。
  • 有限内存,无限内核内存:总内存有限,但内核内存无限。
  • 有限内存,有限内核内存:同时限制用户内存和内核内存对于调试内存相关问题非常有用。如果容器使用的任一类型的内存量超出预期,它会耗尽内存而不会影响其他容器或主机。在此设置下,如果内核内存限制低于用户内存限制,耗尽内核内存会导致容器经历 OOM 错误。如果内核内存限制高于用户内存限制,内核限制不会导致容器经历 OOM。

当您启用内核内存限制时,主机系统会按进程跟踪“高水位线”统计信息,因此您可以跟踪哪些进程(在本例中是容器)正在使用过多内存。这可以通过在主机上查看 /proc/<PID>/status 来按进程查看。

CPU

默认情况下,每个容器对主机 CPU 周期的访问是无限制的。您可以设置各种约束来限制给定容器对主机 CPU 周期的访问。大多数用户使用并配置 默认 CFS 调度器。您也可以配置 实时调度器

配置默认 CFS 调度器

CFS 是用于普通 Linux 进程的 Linux 内核 CPU 调度器。多个运行时标志可让您配置容器拥有的 CPU 资源访问量。当您使用这些设置时,Docker 会修改主机上容器 cgroup 的设置。

选项 描述
--cpus=<value> 指定容器可以使用的可用 CPU 资源量。例如,如果主机有两个 CPU,并且您设置 --cpus="1.5",则保证容器最多使用一个半 CPU。这相当于设置 --cpu-period="100000"--cpu-quota="150000"
--cpu-period=<value> 指定 CPU CFS 调度器周期,与 --cpu-quota 一起使用。默认为 100000 微秒(100 毫秒)。大多数用户不会更改此默认值。对于大多数用例,--cpus 是一个更方便的替代方案。
--cpu-quota=<value> 对容器施加 CPU CFS 配额。在 --cpu-period 之前容器被限制的微秒数,因此充当有效的上限。对于大多数用例,--cpus 是一个更方便的替代方案。
--cpuset-cpus 限制容器可以使用的特定 CPU 或核心。如果您的 CPU 多于一个,则可以使用逗号分隔的列表或连字符分隔的范围。第一个 CPU 编号为 0。有效值可能是 0-3(使用第一、第二、第三和第四个 CPU)或 1,3(使用第二和第四个 CPU)。
--cpu-shares 将此标志设置为大于或小于默认值 1024 的值,以增加或减少容器的权重,并使其能够访问更大或更小比例的主机 CPU 周期。这仅在 CPU 周期受到限制时强制执行。当有大量 CPU 周期可用时,所有容器都会根据需要使用尽可能多的 CPU。因此,这是一个软限制。--cpu-shares 不会阻止容器在 Swarm 模式下被调度。它优先考虑可用 CPU 周期的容器 CPU 资源。它不保证或保留任何特定的 CPU 访问。

如果您有一个 CPU,以下每个命令都保证容器每秒最多使用 50% 的 CPU。

$ docker run -it --cpus=".5" ubuntu /bin/bash

这相当于手动指定 --cpu-period--cpu-quota

$ docker run -it --cpu-period=100000 --cpu-quota=50000 ubuntu /bin/bash

配置实时调度器

您可以将容器配置为使用实时调度器,用于无法使用 CFS 调度器的任务。在 配置 Docker 守护进程配置单个容器 之前,您需要 确保主机的内核已正确配置

Warning

CPU 调度和优先级划分是高级的内核级功能。大多数用户不需要更改这些值的默认值。错误设置这些值可能会导致您的主机系统变得不稳定或无法使用。

配置主机的内核

通过运行 zcat /proc/config.gz | grep CONFIG_RT_GROUP_SCHED 或检查文件 /sys/fs/cgroup/cpu.rt_runtime_us 是否存在,验证 CONFIG_RT_GROUP_SCHED 在 Linux 内核中是否已启用。有关配置内核实时调度器的指导,请查阅您操作系统的文档。

配置 Docker 守护进程

要使用实时调度器运行容器,请运行 Docker 守护进程,并将 --cpu-rt-runtime 标志设置为每个运行时周期为实时任务保留的最大微秒数。例如,默认周期为 1000000 微秒(1 秒),设置 --cpu-rt-runtime=950000 可确保使用实时调度器的容器在每个 1000000 微秒周期内可以运行 950000 微秒,为非实时任务留下至少 50000 微秒。要在使用 systemd 的系统上使此配置永久生效,请为 docker 服务创建一个 systemd 单元文件。例如,请参阅有关如何使用 systemd 单元文件 配置守护进程以使用代理的说明。

配置单个容器

在使用 docker run 启动容器时,您可以传递多个标志来控制容器的 CPU 优先级。请查阅您操作系统的文档或 ulimit 命令以获取有关适当值的信息。

选项 描述
--cap-add=sys_nice 授予容器 CAP_SYS_NICE 功能,允许容器提高进程 nice 值、设置实时调度策略、设置 CPU 亲和性以及其他操作。
--cpu-rt-runtime=<value> 容器在 Docker 守护进程的实时调度器周期内以实时优先级运行的最大微秒数。您还需要 --cap-add=sys_nice 标志。
--ulimit rtprio=<value> 允许容器的最大实时优先级。您还需要 --cap-add=sys_nice 标志。

以下示例命令在 debian:jessie 容器上设置这三个标志。

$ docker run -it \
    --cpu-rt-runtime=950000 \
    --ulimit rtprio=99 \
    --cap-add=sys_nice \
    debian:jessie

如果内核或 Docker 守护进程未正确配置,则会发生错误。

GPU

访问 NVIDIA GPU

先决条件

访问官方 NVIDIA 驱动程序页面 下载并安装合适的驱动程序。完成后重新启动您的系统。

验证您的 GPU 是否正在运行且可访问。

安装 nvidia-container-toolkit

按照官方 NVIDIA Container Toolkit 安装说明 进行操作。

暴露 GPU 以供使用

在启动容器时包含 --gpus 标志以访问 GPU 资源。指定要使用的 GPU 数量。例如:

$ docker run -it --rm --gpus all ubuntu nvidia-smi

暴露所有可用的 GPU 并返回类似以下的结果:

+-------------------------------------------------------------------------------+
| NVIDIA-SMI 384.130            	Driver Version: 384.130               	|
|-------------------------------+----------------------+------------------------+
| GPU  Name 	   Persistence-M| Bus-Id    	Disp.A | Volatile Uncorr. ECC   |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M.   |
|===============================+======================+========================|
|   0  GRID K520       	Off  | 00000000:00:03.0 Off |                  N/A      |
| N/A   36C	P0    39W / 125W |  	0MiB /  4036MiB |      0%  	Default |
+-------------------------------+----------------------+------------------------+
+-------------------------------------------------------------------------------+
| Processes:                                                       GPU Memory   |
|  GPU   	PID   Type   Process name                         	Usage  	|
|===============================================================================|
|  No running processes found                                                   |
+-------------------------------------------------------------------------------+

使用 device 选项指定 GPU。例如:

$ docker run -it --rm --gpus device=GPU-3a23c669-1f69-c64e-cf85-44e9b07e7a2a ubuntu nvidia-smi

暴露该特定的 GPU。

$ docker run -it --rm --gpus '"device=0,2"' ubuntu nvidia-smi

暴露第一个和第三个 GPU。

Note

NVIDIA GPU 只能由运行单个引擎的系统访问。

设置 NVIDIA 功能

您可以手动设置功能。例如,在 Ubuntu 上,您可以运行以下命令:

$ docker run --gpus 'all,capabilities=utility' --rm ubuntu nvidia-smi

这启用了 utility 驱动程序功能,该功能将 nvidia-smi 工具添加到容器中。

功能以及其他配置可以通过环境变量在镜像中设置。有关有效变量的更多信息,请参阅 nvidia-container-toolkit 文档。这些变量可以在 Dockerfile 中设置。

您也可以使用 CUDA 镜像,这些镜像会自动设置这些变量。请参阅官方 CUDA 镜像 NGC 目录页面。