topology.conf
节:Slurm 配置文件 (5)更新:Slurm 配置文件
索引
名称
topology.conf - Slurm 的拓扑插件配置文件描述
topology.conf 是一个 ASCII 文件,描述了集群的网络拓扑,以优化作业资源分配。 该文件始终位于与 slurm.conf 相同的目录中。 注意:如果存在 topology.yaml(5),则此文件将被忽略。
参数名称不区分大小写。 配置文件中以 "#" 开头的任何文本都被视为注释,直到该行结束。 对配置文件的更改在 Slurm 守护进程重新启动、守护进程收到 SIGHUP 信号或执行命令 "scontrol reconfigure" 时生效,除非另有说明。
topology/tree
此插件要求您使用 select/cons_tres 插件。 网络拓扑配置,每行定义一个交换机名称及其子节点,子节点可以是节点名称或交换机名称。 使用 Slurm 的主机列表表达式解析器,因此节点和交换机名称不必是连续的(例如 "Nodes=tux[0-3,12,18-20]" 和 "Switches=s[0-2,4-8,12]" 将正常解析)。 还可以指定可选的链路速度。
网络中的所有节点必须至少连接到一个交换机。网络必须是完全连接的,以使用 TopologyParam=RouteTree。作业只能跨连接到同一交换机网络的节点,即使在集群的其他区域有可用的空闲节点。
可以使用 slurmibtopology 工具自动生成 Infiniband 交换机的 topology.conf 文件,该工具可以在此找到: <https://github.com/OleHolmNielsen/Slurm_tools/tree/master/slurmibtopology>。
可用于 topology/tree 的整体配置参数包括:
- SwitchName
- 交换机的名称。此名称是 Slurm 内部使用的,可以是任意的。 每个交换机应具有唯一的名称。 此字段必须指定,且不能超过 64 个字符。
-
- Switches
- 命名交换机的子交换机。
-
- Nodes
- 命名叶交换机的子节点。
-
- LinkSpeed
- 一个可选值,指定此通信链路的性能。 使用的单位是任意的,目前此信息未被使用。 将来可能会用于优化资源分配。
-
topology/block
网络拓扑配置,每行定义一个块名称及其子节点名称。 使用 Slurm 的主机列表表达式解析器,因此节点名称不必是连续的(例如 "Nodes=tux[0-3,12,18-20]")。
此拓扑插件强调减少集群的碎片化,允许作业利用较低延迟的连接在较小的 "块" 节点之间,而不是尽可能快地在第一个可用资源上启动作业。
定义的节点块与其他连续块配对,以创建更高级别的节点块。这些较大的块可以与同一级别的其他块配对,以形成更大且更大的连续节点块,并优化它们之间的通信。强制的块大小由 BlockSizes 定义。
可用于 topology/block 的整体配置参数包括:
- BlockName
- 块的名称。此名称是 Slurm 内部使用的,可以是任意的。 每个块应具有唯一的名称。 此字段必须指定。
-
- Nodes
- 命名块的子节点。
-
- BlockSizes
- 计划基础块大小的列表,以及任何将被强制执行的更高级别块大小。 每个块必须至少具有计划基础块大小数量的节点。 连续的 BlockSizes 必须是比前一个值大的二次幂。
-
示例
################################################################## # Slurm 的网络拓扑配置文件,用于 # topology/tree 插件 ################################################################## SwitchName=s0 Nodes=dev[0-5] SwitchName=s1 Nodes=dev[6-11] SwitchName=s2 Nodes=dev[12-17] SwitchName=s3 Switches=s[0-2]
################################################################## # Slurm 的网络拓扑配置文件,用于 # topology/block 插件 ################################################################## BlockName=block1 Nodes=node[1-32] BlockName=block2 Nodes=node[33-64] BlockName=block3 Nodes=node[65-96] BlockName=block4 Nodes=node[97-128] BlockSizes=30,120
版权
版权所有 (C) 2009 劳伦斯利弗莫尔国家实验室。 在劳伦斯利弗莫尔国家实验室制作(参见免责声明)。版权所有 (C) 2010-2023 SchedMD LLC。
此文件是 Slurm 的一部分,Slurm 是一个资源管理程序。 有关详细信息,请参见 <https://slurm.schedmd.com/>。
Slurm 是自由软件;您可以根据自由软件基金会发布的 GNU 通用公共许可证的条款重新分发和/或修改它;许可证的第 2 版,或(根据您的选择)任何更高版本。
Slurm 的分发是希望它会有用,但不提供任何担保;甚至不提供适销性或特定用途的适用性的隐含担保。有关更多详细信息,请参见 GNU 通用公共许可证。
另请参见
slurm.conf(5), topology.yaml(5)
索引
本文档由 man2html 使用手册页创建。
时间:2025年7月2日 13:21:55 GMT