slurmctld

部分:Slurm 守护进程 (8)
更新:Slurm 守护进程
索引

 

名称

slurmctld - Slurm 的中央管理守护进程。  

概述

slurmctld [选项...]  

描述

slurmctld 是 Slurm 的中央管理守护进程。它监控所有其他 Slurm 守护进程和资源,接受工作(作业),并为这些作业分配资源。鉴于slurmctld 的关键功能,可能会有一个备份服务器在主服务器故障时承担这些功能。

 

选项

-c
清除上一个slurmctld 状态的所有内容,包括其最后的检查点。 使用此选项,所有作业,包括正在运行和排队的作业,以及所有节点状态,将被删除。没有此选项时,先前运行的作业将被保留,以及节点的状态为 DOWN、DRAINED 和 DRAINING 的节点及其相关的原因字段。 注意:在生产环境中,您几乎不会想使用此选项,因为所有作业将被终止。

-D
在前台运行slurmctld,并将日志复制到 stderr。 这限制了 'scontrol reconfigure' 的弹性,应避免在生产环境中使用。

-f <file>
从指定文件读取配置。请参阅下面的备注

-h
帮助;打印命令选项的简要摘要。

-i
在启动时忽略读取状态文件时发现的错误。 警告:使用此选项将意味着丢失未从状态文件恢复的数据。

-L <file>
将日志消息写入指定文件。

-n <value>
将守护进程的优先级值设置为指定值,通常为负数。

-r
从上一个检查点恢复部分状态:作业和节点 DOWN/DRAIN 状态及原因信息状态。不会恢复分区状态。 这是默认操作。

-R
从上一个检查点恢复完整状态:作业、节点、分区状态和电源保存设置。 没有此选项时,先前运行的作业将被保留,以及节点状态为 DOWN、DRAINED 和 DRAINING 的节点及其相关的原因字段。不会保留其他节点或分区状态。

-s
如果可能,将 slurmctld 的工作目录更改为 SlurmctldLogFile 路径,否则更改为 Slurm 的 StateSaveLocation。如果两者都失败,则回退到 /var/tmp。

--systemd
在使用 systemd 启动守护进程时使用。这将允许 slurmctld 在使用 'scontrol reconfigure' 时通知 systemd 新的 PID。

注意:slurmctld 的 systemd 单元文件中的用户和组选项需要同时指定 SlurmUser。

-v
详细操作。可以指定多个v,每个超过第一个的'v'都增加详细程度,最多可达 6 次(即 -vvvvvv)。

-V
打印版本信息并退出。

 

环境变量

以下环境变量可用于覆盖编译到 slurmctld 中的设置。

ABORT_ON_FATAL
当检测到致命错误时,使用 abort() 而不是 exit() 来终止进程。这允许在不重新编译 Slurm 的情况下捕获回溯信息。

SLURM_CONF
Slurm 配置文件的位置。通过在命令行上显式命名配置文件可以覆盖此设置。

SLURM_DEBUG_FLAGS
指定调度程序使用的调试标志。有关完整的标志列表,请参见slurm.conf(5) 手册页。环境变量优先于 slurm.conf 中的设置。

 

核心文件位置

如果 slurmctld 是使用-D选项启动的,则核心文件将写入当前工作目录。 否则,如果SlurmctldLogFile是一个完全合格的路径名(以斜杠开头),则核心文件将写入与日志文件相同的目录,前提是 SlurmUser 对该目录具有写权限。 否则,核心文件将写入StateSaveLocation,或作为最后的手段写入“/var/tmp/”。如果上述目录都没有 SlurmUser 的写权限,则不会生成核心文件。

 

信号

SIGTERM SIGINT SIGQUIT
slurmctld 将干净地关闭,将其当前状态保存到状态保存目录。

SIGABRT
slurmctld 将干净地关闭,保存其当前状态,并执行核心转储。

SIGHUP
重新加载 slurm 配置文件,类似于 'scontrol reconfigure'。

SIGTSTP
从终端停止进程。这也会停止 slurmscriptd。

SIGUSR2
从配置中重新读取日志级别,然后重新打开日志文件。这应在设置logrotate(8)时使用。

SIGCHLD SIGUSR1 SIGXCPU SIGPIPE SIGALRM
这些信号被显式忽略。

 

备注

尝试使用不同的slurmctld特定配置参数(例如超时)使用不同的配置文件可能会很有用。然而,除非您特别告诉每个守护进程使用它,否则此特殊配置文件不会被slurmd守护进程或 Slurm 程序使用。如果您希望更改通信端口、临时文件系统的位置或其他 Slurm 组件使用的参数,请更改通用配置文件slurm.conf

 

版权

版权 (C) 2002-2007 加州大学理事会。 版权 (C) 2008-2010 劳伦斯利弗莫尔国家实验室。 版权 (C) 2010-2022 SchedMD LLC。 在劳伦斯利弗莫尔国家实验室制作(参见免责声明)。 CODE-OCEC-09-009。保留所有权利。

此文件是 Slurm 的一部分,一个资源管理程序。 有关详细信息,请参见 <https://slurm.schedmd.com/>。

Slurm 是自由软件;您可以根据自由软件基金会发布的 GNU 通用公共许可证的条款重新分发和/或修改它;许可证的第 2 版,或(根据您的选择)任何更高版本。

Slurm 的分发是希望它会有用,但不提供任何担保;甚至没有适销性或特定用途的隐含担保。有关详细信息,请参见 GNU 通用公共许可证。

 

另见

slurm.conf(5), slurmd(8)


 

索引

名称
概述
描述
选项
环境变量
核心文件位置
信号
备注
版权
另见

此文档由 man2html 使用手册页创建。
时间:2025年7月2日 13:21:54 GMT