topology.conf

节:Slurm 配置文件 (5)
更新:Slurm 配置文件
索引

 

名称

topology.conf - Slurm 的拓扑插件配置文件

 

描述

topology.conf 是一个 ASCII 文件,描述了集群的网络拓扑,以优化作业资源分配。 该文件始终位于与 slurm.conf 相同的目录中。 注意:如果存在 topology.yaml(5),则此文件将被忽略。

参数名称不区分大小写。 配置文件中以 "#" 开头的任何文本都被视为注释,直到该行结束。 对配置文件的更改在 Slurm 守护进程重新启动、守护进程收到 SIGHUP 信号或执行命令 "scontrol reconfigure" 时生效,除非另有说明。

 

topology/tree

此插件要求您使用 select/cons_tres 插件。 网络拓扑配置,每行定义一个交换机名称及其子节点,子节点可以是节点名称或交换机名称。 使用 Slurm 的主机列表表达式解析器,因此节点和交换机名称不必是连续的(例如 "Nodes=tux[0-3,12,18-20]" 和 "Switches=s[0-2,4-8,12]" 将正常解析)。 还可以指定可选的链路速度。

网络中的所有节点必须至少连接到一个交换机。网络必须是完全连接的,以使用 TopologyParam=RouteTree。作业只能跨连接到同一交换机网络的节点,即使在集群的其他区域有可用的空闲节点。

可以使用 slurmibtopology 工具自动生成 Infiniband 交换机的 topology.conf 文件,该工具可以在此找到: <https://github.com/OleHolmNielsen/Slurm_tools/tree/master/slurmibtopology>。

可用于 topology/tree 的整体配置参数包括:

SwitchName
交换机的名称。此名称是 Slurm 内部使用的,可以是任意的。 每个交换机应具有唯一的名称。 此字段必须指定,且不能超过 64 个字符。

Switches
命名交换机的子交换机。

Nodes
命名叶交换机的子节点。

LinkSpeed
一个可选值,指定此通信链路的性能。 使用的单位是任意的,目前此信息未被使用。 将来可能会用于优化资源分配。

 

topology/block

网络拓扑配置,每行定义一个块名称及其子节点名称。 使用 Slurm 的主机列表表达式解析器,因此节点名称不必是连续的(例如 "Nodes=tux[0-3,12,18-20]")。

此拓扑插件强调减少集群的碎片化,允许作业利用较低延迟的连接在较小的 "块" 节点之间,而不是尽可能快地在第一个可用资源上启动作业。

定义的节点块与其他连续块配对,以创建更高级别的节点块。这些较大的块可以与同一级别的其他块配对,以形成更大且更大的连续节点块,并优化它们之间的通信。强制的块大小由 BlockSizes 定义。

可用于 topology/block 的整体配置参数包括:

BlockName
块的名称。此名称是 Slurm 内部使用的,可以是任意的。 每个块应具有唯一的名称。 此字段必须指定。

Nodes
命名块的子节点。

BlockSizes
计划基础块大小的列表,以及任何将被强制执行的更高级别块大小。 每个块必须至少具有计划基础块大小数量的节点。 连续的 BlockSizes 必须是比前一个值大的二次幂。

 

示例

##################################################################
# Slurm 的网络拓扑配置文件,用于
# topology/tree 插件
##################################################################
SwitchName=s0 Nodes=dev[0-5]
SwitchName=s1 Nodes=dev[6-11]
SwitchName=s2 Nodes=dev[12-17]
SwitchName=s3 Switches=s[0-2]

##################################################################
# Slurm 的网络拓扑配置文件,用于
# topology/block 插件
##################################################################
BlockName=block1 Nodes=node[1-32]
BlockName=block2 Nodes=node[33-64]
BlockName=block3 Nodes=node[65-96]
BlockName=block4 Nodes=node[97-128]
BlockSizes=30,120

 

版权

版权所有 (C) 2009 劳伦斯利弗莫尔国家实验室。 在劳伦斯利弗莫尔国家实验室制作(参见免责声明)。
版权所有 (C) 2010-2023 SchedMD LLC。

此文件是 Slurm 的一部分,Slurm 是一个资源管理程序。 有关详细信息,请参见 <https://slurm.schedmd.com/>。

Slurm 是自由软件;您可以根据自由软件基金会发布的 GNU 通用公共许可证的条款重新分发和/或修改它;许可证的第 2 版,或(根据您的选择)任何更高版本。

Slurm 的分发是希望它会有用,但不提供任何担保;甚至不提供适销性或特定用途的适用性的隐含担保。有关更多详细信息,请参见 GNU 通用公共许可证。

 

另请参见

slurm.conf(5), topology.yaml(5)


 

索引

名称
描述
topology/tree
topology/block
示例
版权
另请参见

本文档由 man2html 使用手册页创建。
时间:2025年7月2日 13:21:55 GMT