sinfo
部分:Slurm 命令 (1)更新:Slurm 命令
索引
名称
sinfo - 查看有关 Slurm 节点和分区的信息。概要
sinfo [选项...]描述
sinfo 用于查看运行 Slurm 的系统的分区和节点信息。选项
- -a, --all
- 显示有关所有分区的信息。这会显示配置为隐藏的分区和对用户组不可用的分区的信息。
-
- -M, --clusters=<字符串>
- 要发出命令的集群。多个集群名称可以用逗号分隔。 值为'all'将查询所有集群。 请注意,slurmdbd 必须处于运行状态,才能使此选项正常工作,除非 在具有配置的FederationParameters=fed_display的联合环境中运行,或者设置了--federation选项。 此选项隐式设置--local选项。
-
- -d, --dead
- 仅显示意外停止响应的节点。这可能不会显示处于 POWERED_DOWN 状态的节点,因为它们被认为是关闭的。
-
- -e, --exact
- 如果设置,则除非要报告的配置相同,否则不对多个节点的信息进行分组。否则 将列出节点的 CPU 数量、内存大小和磁盘空间,最小值后面跟一个“+”表示具有相同分区和状态的节点(例如“250+”)。
-
- --federation
- 如果是联合中的成员,则显示来自该联合的所有分区。
-
- -F, --future
- 报告处于 FUTURE 状态的节点。
-
- -o, --format=<输出格式>
- 使用sinfo格式字符串指定要显示的信息。 如果在联合集群环境中执行命令并且要显示有关多个集群的信息,并且使用了-h, --noheader选项,则将在下面显示的默认输出格式之前显示集群名称。 sinfo在使用各种选项时透明地使用的格式字符串包括:
-
-
- default
-
- "%#P %.5a %.10l %.6D %.6t %N"
-
- --summarize
-
- "%#P %.5a %.10l %.16F %N"
-
- --long
-
- "%#P %.5a %.10l %.10s %.4r %.8h %.10g %.6D %.11T %.11i %N"
-
- --Node
-
- "%#N %.6D %#P %6t"
-
- --long --Node
-
- "%#N %.6D %#P %.11T %.4c %.8z %.6m %.8d %.6w %.8f %20E"
-
- --list-reasons
-
- "%20E %9u %19H %N"
-
- --long --list-reasons
-
- "%20E %12U %19H %6t %N"
-
在上述格式字符串中,“#”的使用表示要打印的任何分区名称或节点列表的最大长度。 对要打印的记录进行一次遍历以确定大小,以便对齐 sinfo 输出,然后对记录进行第二次遍历以打印它们。 请注意,字面字符“#”本身不是有效的字段长度规范,仅用于记录此行为。
每个字段的格式为“%[[.]size]type[suffix]”
有效的type规范包括:
-
- %all
- 打印此数据类型的所有可用字段,每个字段之间用竖线分隔。
-
- %a
- 分区的状态/可用性。
-
- %A
- 按状态格式显示的节点数“已分配/空闲”。 请勿与节点状态选项(“%t”或“%T”)一起使用,否则不同的节点状态将被放置在不同的行上。
-
- %b
- 当前在节点上活动的特性,另见%f。
-
- %B
- 分区中可用于作业的每个节点的最大 CPU 数量。
-
- %c
- 每个节点的 CPU 数量。
-
- %C
- 按状态格式显示的 CPU 数量“已分配/空闲/其他/总计”。请勿与节点状态选项(“%t”或“%T”)一起使用,否则不同的节点状态将被放置在不同的行上。
-
- %d
- 每个节点的临时磁盘空间大小(以兆字节为单位)。
-
- %D
- 节点数量。
-
- %e
- 当前在节点上报告的可用内存(以 MB 为单位)。此值仅供参考,不用于调度。
-
- %E
- 节点不可用的原因(关闭、排水或排水状态)。
-
- %f
- 节点上可用的特性,另见%b。
-
- %F
- 按状态格式显示的节点数量“已分配/空闲/其他/总计”。请注意,将此格式选项与节点状态格式选项(“%t”或“%T”)一起使用将导致不同的节点状态在不同的行上报告。
-
- %g
- 可以使用节点的组。
-
- %G
- 与节点相关的通用资源(gres)。
-
- %h
- 打印分区的 OverSubscribe 设置。
-
- %H
- 打印节点不可用原因的时间戳。
-
- %i
- 如果节点处于高级预留状态,则打印该预留的名称。
-
- %I
- 分区作业优先级权重因子。
-
- %l
- 任何作业的最大时间格式为“天-小时:分钟:秒”
-
- %L
- 任何作业的默认时间格式为“天-小时:分钟:秒”
-
- %m
- 每个节点的内存大小(以兆字节为单位)。
-
- %M
- 抢占模式。
-
- %n
- 节点主机名列表。
-
- %N
- 节点名称列表。
-
- %o
- 节点通信地址列表。
-
- %O
- 操作系统报告的节点 CPU 负载。
-
- %p
- 分区调度层级优先级。
-
- %P
- 分区名称,后跟“*”表示默认分区,另见%R。
-
- %r
- 仅用户 root 可以启动作业,“是”或“否”。
-
- %R
- 分区名称,另见%P。
-
- %s
- 最大作业大小(以节点为单位)。
-
- %S
- 允许分配的节点。
-
- %t
- 节点的状态,紧凑形式。
-
- %T
- 节点的状态,扩展形式。
-
- %u
- 打印设置节点不可用原因的用户名。
-
- %U
- 打印设置节点不可用原因的用户名和 uid。
-
- %v
- 打印正在运行的 slurmd 守护进程的版本。
-
- %V
- 如果在联合中运行,则打印集群名称。
-
- %w
- 节点的调度权重。
-
- %X
- 每个节点的插槽数量。
-
- %Y
- 每个插槽的核心数量。
-
- %Z
- 每个核心的线程数量。
-
- %z
- 扩展处理器信息:每个节点的插槽、核心、线程数量(S:C:T)。
每个字段的格式为“类型[:[.][size][suffix]]”
有效的type规范包括:
-
- All
- 打印此数据类型的所有字段,使用 -o 格式,每个字段之间用竖线分隔。
-
- AllocMem
- 打印节点上分配的内存量。
-
- AllocNodes
- 允许分配的节点。
-
- Available
- 分区的状态/可用性。
-
- Cluster
- 如果在联合中运行,则打印集群名称。
-
- Comment
- 注释。(任意描述字符串)
-
- Cores
- 每个插槽的核心数量。
-
- CPUs
- 每个节点的 CPU 数量。
-
- CPUsLoad
- 操作系统报告的节点 CPU 负载。
-
- CPUsState
- 按状态格式显示的 CPU 数量“已分配/空闲/其他/总计”。请勿与节点状态选项(“%t”或“%T”)一起使用,否则不同的节点状态将被放置在不同的行上。
-
- DefaultTime
- 任何作业的默认时间格式为“天-小时:分钟:秒”。
-
- Disk
- 每个节点的临时磁盘空间大小(以兆字节为单位)。
-
- Extra
- 节点上的任意字符串。
-
- Features
- 节点上可用的特性。另见features_act。
-
- features_act
- 当前在节点上活动的特性。另见features。
-
- FreeMem
- 当前在节点上报告的可用内存(以 MB 为单位)。此值仅供参考,不用于调度。
-
- Gres
- 与节点相关的通用资源(gres)。
-
- GresUsed
- 当前在节点上使用的通用资源(gres)。
-
- Groups
- 可以使用节点的组。
-
- MaxCPUsPerNode
- 分区中可用于作业的每个节点的最大 CPU 数量。
-
- Memory
- 每个节点的内存大小(以兆字节为单位)。
-
- NodeAddr
- 节点通信地址列表。
-
- NodeAI
- 按状态格式显示的节点数“已分配/空闲”。 请勿与节点状态选项(“%t”或“%T”)一起使用,否则不同的节点状态将被放置在不同的行上。
-
- NodeAIOT
- 按状态格式显示的节点数“已分配/空闲/其他/总计”。请勿与节点状态选项(“%t”或“%T”)一起使用,否则不同的节点状态将被放置在不同的行上。
-
- NodeHost
- 节点主机名列表。
-
- NodeList
- 节点名称列表。
-
- Nodes
- 节点数量。
-
- OverSubscribe
- 作业是否可以超额订阅计算资源(例如 CPU)。
-
- Partition
- 分区名称,后跟“*”表示默认分区,另见%R。
-
- PartitionName
- 分区名称,另见%P。
-
- Port
- 节点 TCP 端口。
-
- PreemptMode
- 抢占模式。
-
- PriorityJobFactor
- 在计算作业优先级时由优先级/多因素插件使用的分区因子。
-
- PriorityTier 或 Priority
- 分区调度层级优先级。
-
- Reason
- 节点不可用的原因(关闭、排水或排水状态)。
-
- Root
- 仅用户 root 可以启动作业,“是”或“否”。
-
- Size
- 最大作业大小(以节点为单位)。
-
- SocketCoreThread
- 扩展处理器信息:每个节点的插槽、核心、线程数量(S:C:T)。
-
- Sockets
- 每个节点的插槽数量。
-
- StateCompact
- 节点的状态,紧凑形式。
-
- StateLong
- 节点的状态,扩展形式。
-
- StateComplete
- 节点的状态,包括所有节点状态标志。例如“空闲+云+电源”
-
- Threads
- 每个核心的线程数量。
-
- Time
- 任何作业的最大时间格式为“天-小时:分钟:秒”。
-
- TimeStamp
- 打印节点不可用原因的时间戳。
-
- User
- 打印设置节点不可用原因的用户名。
-
- UserLong
- 打印设置节点不可用原因的用户名和 uid。
-
- Version
- 打印正在运行的 slurmd 守护进程的版本。
-
- Weight
- 节点的调度权重。
注意:此选项使sinfo忽略大多数其他选项,这些选项专注于分区和节点信息。
输出字段描述
- AVAIL
- 分区状态。可以是up、down、drain或inact (表示非活动)。有关更多信息,请参见分区定义的State参数 在slurm.conf(5)手册页中。
-
- CPUS
- 这些节点上的CPU(处理器)数量。
-
- S:C:T
- 这些节点上的插槽(S)、核心(C)和线程(T)数量。
-
- SOCKETS
- 这些节点上的插槽数量。
-
- CORES
- 这些节点上的核心数量。
-
- THREADS
- 这些节点上的线程数量。
-
- GROUPS
- 此分区中的资源分配限制为命名组。all表示所有组都可以使用 此分区。
-
- JOB_SIZE
- 可以分配给任何用户作业的最小和最大节点数量。单个数字表示最小和最大节点数量相同。infinite用于标识 没有最大节点数量的分区。
-
- TIMELIMIT
- 任何用户作业的最大时间限制,单位为 天-小时:分钟:秒。infinite用于标识 没有作业时间限制的分区。
-
- MEMORY
- 这些节点上的实际内存大小,单位为兆字节。
-
- NODELIST
- 与此特定配置相关的节点名称。
-
- NODES
- 具有此特定配置的节点数量。
-
- NODES(A/I)
- 按节点状态以"allocated/idle"的形式显示此特定配置的节点数量。
-
- NODES(A/I/O/T)
- 按节点状态以"allocated/idle/other/total"的形式显示此特定配置的节点数量。
-
- PARTITION
- 分区的名称。请注意,后缀"*"标识默认分区。
-
- PORT
- 节点上slurmd使用的本地TCP端口。
-
- ROOT
- 在此分区中分配资源的能力是否仅限于用户root,是或否。
-
- OVERSUBSCRIBE
- 在此分区中分配资源的作业是否可以/将会超额订阅这些计算资源(例如,CPU)。
NO表示资源从不被超额订阅。
EXCLUSIVE表示整个节点专用于作业(等同于srun --exclusive选项,即使在select/cons_tres管理单个处理器时也可以使用)。
FORCE表示资源始终可用于超额订阅。
YES表示资源可以超额订阅,如果作业的资源分配请求了。
注意:如果OverSubscribe设置为FORCE或YES,则OversubScribe值将附加到输出中。
-
- STATE
- 节点的状态。
可能的状态包括:allocated、blocked、completing、down、
drained、draining、fail、failing、future、idle、maint、mixed、
perfctrs、planned、power_down、power_up、reserved和unknown。
它们的缩写形式分别为:alloc、block、comp、down、drain、drng、
fail、failg、futr、idle、maint、mix、npc、plnd、pow_dn、pow_up、resv、
和unk。
注意:后缀"*"标识当前不响应的节点。
-
- TMP_DISK
- 这些节点上的临时磁盘空间大小,单位为兆字节。
-
节点状态代码
节点状态代码根据字段大小进行缩短。 这些节点状态后可能跟随一个特殊字符,以标识与节点相关的状态标志。 使用以下节点后缀和状态:
- *
- 节点当前不响应,将不会被分配任何新工作。如果节点保持不响应,它将被置于DOWN状态(除非是COMPLETING、DRAINED、DRAINING、FAIL、FAILING节点)。
-
- ~
- 节点当前处于关闭状态。
-
- #
- 节点当前正在启动或配置中。
-
- !
- 节点待关闭。
-
- %
- 节点当前正在关闭中。
-
- $
- 节点当前处于维护标志值的预留状态。
-
- @
- 节点待重启。
-
- ^
- 节点重启请求已发出。
-
- -
- 节点被后填调度程序计划用于更高优先级的作业。
-
- ALLOCATED
- 节点已分配给一个或多个作业。
-
- ALLOCATED+
- 节点分配给一个或多个活动作业,并且一个或多个作业正在完成中。
-
- BLOCKED
- 节点已被独占拓扑作业阻塞。
-
- COMPLETING
- 与此节点相关的所有作业正在完成中。此节点状态将在所有作业的进程终止并且Slurm的尾处理程序(如果有)终止后被移除。有关更多信息,请参见Epilog参数描述在slurm.conf(5)手册页中。
-
- DOWN
- 节点不可用。Slurm可以在发生故障时自动将节点置于此状态。 系统管理员也可以显式将节点置于此状态。如果节点恢复正常操作,Slurm可以自动将其恢复服务。有关更多信息,请参见ReturnToService和SlurmdTimeout参数描述在slurm.conf(5)手册页中。
-
- DRAINED
- 根据系统管理员请求,节点不可用。有关更多信息,请参见update node命令在scontrol(1)手册页或slurm.conf(5)手册页中。
-
- DRAINING
- 节点当前分配了一个作业,但将不会分配其他作业。节点状态将在最后一个作业完成时更改为DRAINED状态。节点根据系统管理员请求进入此状态。有关更多信息,请参见update node命令在scontrol(1)手册页或slurm.conf(5)手册页中。
-
- FAIL
- 节点预计将很快失败,并且根据系统管理员请求不可用。 有关更多信息,请参见update node命令在scontrol(1)手册页或slurm.conf(5)手册页中。
-
- FAILING
- 节点当前正在执行作业,但预计将很快失败,并且根据系统管理员请求不可用。 有关更多信息,请参见update node命令在scontrol(1)手册页或slurm.conf(5)手册页中。
-
- FUTURE
- 节点当前未完全配置,但预计在不确定的未来某个时刻可用。
-
- IDLE
- 节点未分配给任何作业,并且可用。
-
- INVAL
- 节点未正确注册到控制器。这发生在节点以少于slurm.conf文件中配置的资源注册时。 节点将通过有效注册(即需要重启slurmd)清除此状态。
-
- MAINT
- 节点当前处于维护标志值的预留状态。
-
- REBOOT_ISSUED
- 已向配置为处理此请求的代理发送重启请求。
-
- REBOOT_REQUESTED
- 已发出重启此节点的请求,但尚未处理。
-
- MIXED
- 节点的一些CPU处于ALLOCATED状态,而其他处于IDLE状态。 或者节点有一个暂停的作业分配给其某些TRES(例如内存)。
-
- PERFCTRS (NPC)
- 与此节点相关的网络性能计数器正在使用,使得此节点无法用于其他作业。
-
- PLANNED
- 节点被后填调度程序计划用于更高优先级的作业。
-
- POWER_DOWN
- 节点待关闭。
-
- POWERED_DOWN
- 节点当前已关闭,无法运行任何作业。
-
- POWERING_DOWN
- 节点正在关闭中,无法运行任何作业。
-
- POWERING_UP
- 节点正在启动中。
-
- RESERVED
- 节点处于高级预留状态,通常不可用。
-
- UNKNOWN
- Slurm控制器刚刚启动,节点的状态尚未确定。
-
性能
执行sinfo会向slurmctld发送远程过程调用。如果来自sinfo或其他向slurmctld守护进程发送远程过程调用的Slurm客户端命令的调用过多,可能会导致slurmctld守护进程的性能下降,可能导致服务拒绝。
请勿在shell脚本或其他程序的循环中运行sinfo或其他向slurmctld发送远程过程调用的Slurm客户端命令。确保程序将对sinfo的调用限制在收集所需信息的最低限度。
环境变量
某些sinfo选项可以通过环境变量设置。以下是这些环境变量及其对应选项的列表。 注意:命令行选项将始终覆盖这些设置。
- SINFO_ALL
- 与-a, --all相同
-
- SINFO_FEDERATION
- 与--federation相同
-
- SCONTROL_FUTURE
- -F, --future
-
- SINFO_FORMAT
- 与-o <output_format>, --format=<output_format>相同
-
- SINFO_LOCAL
- 与--local相同
-
- SINFO_PARTITION
- 与-p <partition>, --partition=<partition>相同
-
- SINFO_SORT
- 与-S <sort>, --sort=<sort>相同
-
- SLURM_CLUSTERS
- 与--clusters相同
-
- SLURM_CONF
- Slurm配置文件的位置。
-
- SLURM_DEBUG_FLAGS
- 指定sinfo使用的调试标志。有关完整的标志列表,请参见slurm.conf(5)手册页中的DebugFlags。环境变量优先于slurm.conf中的设置。
-
- SLURM_JSON
- 控制JSON序列化:
还可以指定有效的strftime()格式。例如,值为"%a %T"将报告星期几和时间戳(例如"Mon 12:34:56")。
示例
- 报告基本的节点和分区配置:
-
$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST batch up infinite 2 alloc adev[8-9] batch up infinite 6 idle adev[10-15] debug* up 30:00 8 idle adev[0-7]
- 报告分区摘要信息:
-
$ sinfo -s PARTITION AVAIL TIMELIMIT NODES(A/I/O/T) NODELIST batch up infinite 2/6/0/8 adev[8-15] debug* up 30:00 0/8/0/8 adev[0-7]
- 报告有关分区debug的更完整信息:
-
$ sinfo --long --partition=debug PARTITION AVAIL TIMELIMIT JOB_SIZE ROOT OVERSUBS GROUPS NODES STATE NODELIST debug* up 30:00 8 no no all 8 idle dev[0-7]
- 仅报告处于DRAINED状态的节点:
-
$ sinfo --states=drained PARTITION AVAIL NODES TIMELIMIT STATE NODELIST debug* up 2 30:00 drain adev[6-7]
- 报告节点导向的信息,包含详细信息和精确匹配:
-
$ sinfo -Nel NODELIST NODES PARTITION STATE CPUS MEMORY TMP_DISK WEIGHT FEATURES REASON adev[0-1] 2 debug* idle 2 3448 38536 16 (null) (null) adev[2,4-7] 5 debug* idle 2 3384 38536 16 (null) (null) adev3 1 debug* idle 2 3394 38536 16 (null) (null) adev[8-9] 2 batch allocated 2 246 82306 16 (null) (null) adev[10-15] 6 batch idle 2 246 82306 16 (null) (null)
- 仅报告处于down、drained和draining状态的节点及其原因字段:
-
$ sinfo -R REASON NODELIST Memory errors dev[0,5] Not Responding dev8
版权
版权所有 (C) 2002-2007 加州大学理事会。 在劳伦斯利弗莫尔国家实验室制作(参见免责声明)。版权所有 (C) 2008-2009 劳伦斯利弗莫尔国家安全。
版权所有 (C) 2010-2022 SchedMD LLC。
此文件是Slurm资源管理程序的一部分。 有关详细信息,请参见<https://slurm.schedmd.com/>。
Slurm是自由软件;您可以根据自由软件基金会发布的GNU通用公共许可证的条款重新分发和/或修改它;许可证的版本为2,或(根据您的选择)任何更高版本。
Slurm的分发是希望它将是有用的,但没有任何 保证;甚至没有对适销性或特定用途的隐含保证。有关更多详细信息,请参见GNU通用公共许可证。
另见
scontrol(1)、squeue(1)、slurm_load_ctl_conf (3)、slurm_load_jobs (3)、slurm_load_node (3)、slurm_load_partitions (3)、slurm_reconfigure (3)、slurm_shutdown (3)、slurm_update_job (3)、slurm_update_node (3)、slurm_update_partition (3)、slurm.conf(5)
索引
此文档由 man2html使用手册页创建。
时间:2025年7月2日 13:21:56 GMT