knl.conf
节:Slurm 配置文件 (5)
更新:Slurm 配置文件
索引
名称
knl.conf - Intel Knights Landing 处理器的 Slurm 配置文件。
描述
此 ASCII 文件描述了 Intel Knights Landing 处理器的配置信息,其名称可能取决于在 Slurm 中配置的 NodeFeatures 插件。例如,在 Cray 系统上,NodeFeatures 应配置为 "knl_cray",其配置文件将从 "knl_cray.conf" 中读取。该文件将始终位于与
slurm.conf 相同的目录中。此文件是可选的。
参数名称不区分大小写。
配置文件中以 "#" 开头的任何文本被视为注释,直到该行结束。
对配置文件的更改在 Slurm 守护进程重启、守护进程接收到 SIGHUP 信号或执行命令 "scontrol reconfigure" 时生效,除非另有说明。
可用的整体配置参数包括:
- AllowMCDRAM
- 指定作业允许使用的 MCDRAM 模式。
这可能是节点支持的 MCDRAM 模式的子集。
如果未指定,则节点支持的所有 MCDRAM 模式均可使用。
允许的 MCDRAM 模式的逗号分隔列表可以包括以下列出的任何模式。
-
-
- cache
- 将所有 MCDRAM 用作缓存。
-
- equal
- 将 MCDRAM 部分用作缓存,部分与主内存结合使用。
-
- flat
- 将 MCDRAM 与主内存结合成一个 "平坦" 的内存空间。
AllowNUMA指定作业允许使用的 NUMA 模式。
这可能是节点支持的 NUMA 模式的子集。
如果未指定,则节点支持的所有 NUMA 模式均可使用。
允许的 NUMA 模式的逗号分隔列表可以包括以下列出的任何模式。
请注意,Slurm 只能支持同质节点(例如,每个 NUMA 节点的核心数相同)。
KNL scn4 和 quad 模式不是同质的,但每个 NUMA 模式将具有 16 或 18 个核心。
这将导致 Slurm 使用较低的核心数,并找到总共 256 个线程,而不是 272 个线程,并将节点设置为 DOWN 状态。
因此,建议此时不允许 snc4 和 quad 模式。
-
- a2a
- 全到全
-
- snc2
- 子 NUMA 集群 2
-
- snc4
- 子 NUMA 集群 4
-
- hemi
- 半球
-
- quad
- 象限
AllowUserBoot允许修改节点的 MCDRAM 或 NUMA 状态的用户的逗号分隔列表。
如果未指定,则任何用户都可以更改节点的状态并重启它。
BootTime重启节点的估计时间(以秒为单位)。
用于优化调度决策的基础。
默认值为 "knl_generic" 插件的 300 秒(5 分钟)和 "knl_cray" 插件的 2700 秒(45 分钟)。
CapmcPath指向 capmc 程序的完全限定路径。
默认值为 "/opt/cray/capmc/default/bin/capmc"。
此参数仅由 "knl_cray" 插件使用。
CapmcPollFreq应轮询节点状态变化的 capmc 程序之间的时间间隔(以秒为单位)。
默认值为 45 秒。
此参数仅由 "knl_cray" 插件使用。
CapmcRetries重试失败的 capmc 程序操作的次数。
默认值为 4。
CapmcTimeoutcapmc 程序返回状态信息的时间限制(以毫秒为单位)。
默认值为 60000 毫秒,最小值为 1000 毫秒。
此参数由 "knl_cray" 插件使用,以及用于挂起和恢复节点的 capmc_suspend 和 capmc_resume 程序。
CnselectPath指向 cnselect 程序的完全限定路径。
默认值为 "/opt/cray/sdb/default/bin/cnselect"。
此参数仅由 "knl_cray" 插件使用。
DefaultMCDRAM为未指定值的作业指定默认 MCDRAM 模式。
仅在节点启动时使用,并且分配给该节点的作业未指定所需的 MCDRAM 模式。
该值可以包括上面 AllowMCDRAM 配置参数识别的可能值之一。
默认值为 "cache"。
DefaultNUMA为未指定值的作业指定默认 NUMA 模式。
仅在节点启动时使用,并且分配给该节点的作业未指定所需的 NUMA 模式。
该值可以包括上面 AllowNUMA 配置参数识别的可能值之一。
默认值为 "a2a"。
Force如果设置为非零值,则即使在非 KNL 节点上也加载 node_features/generic 插件。
主要用于测试目的。
LogFile日志文件的完全限定路径。
默认值为 slurm.conf 配置文件中的 SlurmctldLogFile。
此选项仅由 campc_suspend 和 campc_resume 程序使用(它们在适当的配置中关闭和重启节点)。
McPath内存控制器设备文件目录的完全限定路径。
该目录的子目录名称形式为 "mc#/csrow#/ue_count"(即不可恢复内存错误的计数)将被监视以查找非零值。
如果检测到此类错误,节点将被设置为 DOWN 状态,slurmd 守护进程将关闭。
默认值为 "/sys/devices/system/edac/mc"。
另请参见 UmeCheckInterval。
NumaCpuBind包含 NUMA 模式和为该模式设置节点的 CpuBind 模式的对。
找到或设置为指定 NUMA 模式的任何计算节点将具有该节点的 CpuBind 字段设置为配置的值。
NUMA 节点后面将跟一个等号和该 NUMA 模式的所需 CpuBind 模式。多个 NUMA 模式和 CpuBind 模式应以分号分隔的列表形式出现。
默认情况下,对节点的 NUMA 模式的更改不会影响该节点的 CpuBind 模式。
请参见下面的示例。
SyscfgPath指向英特尔的 syscfg 程序的完全限定路径,该程序通过查看 BIOS 设置来识别当前 KNL 配置。
如果未定义,则当前 BIOS 设置将不可用。
默认值为 "/usr/bin/syscfg"。
此参数仅由 "knl_generic" 插件使用。
SyscfgTimeoutsyscfg 程序的超时(以毫秒为单位)。
默认值为 1000 毫秒。
对于 Dell KNL 系统,经验表明 10000 毫秒的更高值更为合适。
SystemType用于区分我们所处理的 KNL 类型。
可能的选项为 "Dell" 和 "Intel"。
默认值为 "Intel"。
此参数仅由 "knl_generic" 插件使用。
UmeCheckInterval检查不可恢复内存错误(UME)的时间间隔(以微秒为单位)。
如果检测到此类错误,节点将被设置为 DOWN 状态,slurmd 守护进程将关闭。
默认值为 0(禁用)。
另请参见 McPath。
ValidateMode如果设置为 1,则验证,但不修改节点的配置 MCDRAM 和 NUMA 模式来自 slurm.conf 文件。如果实际模式与配置值不匹配,节点将被设置为 DOWN 状态。每个 KNL 节点的 MCDRAM 和 NUMA 状态必须都列在 slurm.conf 文件中。
此参数仅由 "knl_cray" 插件使用。
示例
###################################################################
# knl_cray.conf
# Slurm 配置文件,用于 Cray 系统上的 Intel Knights Landing
###################################################################
CapmcPath=/opt/cray/capmc/default/bin/capmc
CapmcTimeout=6000
DefaultMCDRAM=flat
DefaultNUMA=a2a
NumaCpuBind=a2a=core;snc2=thread;snc4=thread
LogFile=/var/tmp/slurm_node_feature.log
SyscfgPath=/usr/sbin/syscfg
版权
版权所有 (C) 2015-2022 SchedMD LLC。
此文件是 Slurm 的一部分,资源管理程序。
有关详细信息,请参见 <https://slurm.schedmd.com/>。
Slurm 是自由软件;您可以根据自由软件基金会发布的 GNU 通用公共许可证的条款重新分发和/或修改它;许可证的版本 2,或(根据您的选择)任何更高版本。
Slurm 的分发希望它会有用,但不提供任何担保;甚至没有适销性或特定用途的隐含担保。有关更多详细信息,请参见 GNU 通用公共许可证。
另见
slurm.conf(5)
索引
- 名称
-
- 描述
-
- 示例
-
- 版权
-
- 另见
-
此文档由
man2html 使用手册页创建。
时间:2025年7月2日 13:21:55 GMT