slurmctld
部分:Slurm 守护进程 (8)更新:Slurm 守护进程
索引
名称
slurmctld - Slurm 的中央管理守护进程。概述
slurmctld [选项...]描述
slurmctld 是 Slurm 的中央管理守护进程。它监控所有其他 Slurm 守护进程和资源,接受工作(作业),并为这些作业分配资源。鉴于slurmctld 的关键功能,可能会有一个备份服务器在主服务器故障时承担这些功能。选项
- -c
- 清除上一个slurmctld 状态的所有内容,包括其最后的检查点。 使用此选项,所有作业,包括正在运行和排队的作业,以及所有节点状态,将被删除。没有此选项时,先前运行的作业将被保留,以及节点的状态为 DOWN、DRAINED 和 DRAINING 的节点及其相关的原因字段。 注意:在生产环境中,您几乎不会想使用此选项,因为所有作业将被终止。
-
- -D
- 在前台运行slurmctld,并将日志复制到 stderr。 这限制了 'scontrol reconfigure' 的弹性,应避免在生产环境中使用。
-
- -f <file>
- 从指定文件读取配置。请参阅下面的备注。
-
- -h
- 帮助;打印命令选项的简要摘要。
-
- -i
- 在启动时忽略读取状态文件时发现的错误。 警告:使用此选项将意味着丢失未从状态文件恢复的数据。
-
- -L <file>
- 将日志消息写入指定文件。
-
- -n <value>
- 将守护进程的优先级值设置为指定值,通常为负数。
-
- -r
- 从上一个检查点恢复部分状态:作业和节点 DOWN/DRAIN 状态及原因信息状态。不会恢复分区状态。 这是默认操作。
-
- -R
- 从上一个检查点恢复完整状态:作业、节点、分区状态和电源保存设置。 没有此选项时,先前运行的作业将被保留,以及节点状态为 DOWN、DRAINED 和 DRAINING 的节点及其相关的原因字段。不会保留其他节点或分区状态。
-
- -s
- 如果可能,将 slurmctld 的工作目录更改为 SlurmctldLogFile 路径,否则更改为 Slurm 的 StateSaveLocation。如果两者都失败,则回退到 /var/tmp。
-
- --systemd
- 在使用 systemd 启动守护进程时使用。这将允许 slurmctld 在使用 'scontrol reconfigure' 时通知 systemd 新的 PID。
注意:slurmctld 的 systemd 单元文件中的用户和组选项需要同时指定 SlurmUser。
-
- -v
- 详细操作。可以指定多个v,每个超过第一个的'v'都增加详细程度,最多可达 6 次(即 -vvvvvv)。
-
- -V
- 打印版本信息并退出。
-
环境变量
以下环境变量可用于覆盖编译到 slurmctld 中的设置。
- ABORT_ON_FATAL
- 当检测到致命错误时,使用 abort() 而不是 exit() 来终止进程。这允许在不重新编译 Slurm 的情况下捕获回溯信息。
-
- SLURM_CONF
- Slurm 配置文件的位置。通过在命令行上显式命名配置文件可以覆盖此设置。
-
- SLURM_DEBUG_FLAGS
- 指定调度程序使用的调试标志。有关完整的标志列表,请参见slurm.conf(5) 手册页。环境变量优先于 slurm.conf 中的设置。
-
核心文件位置
如果 slurmctld 是使用-D选项启动的,则核心文件将写入当前工作目录。 否则,如果SlurmctldLogFile是一个完全合格的路径名(以斜杠开头),则核心文件将写入与日志文件相同的目录,前提是 SlurmUser 对该目录具有写权限。 否则,核心文件将写入StateSaveLocation,或作为最后的手段写入“/var/tmp/”。如果上述目录都没有 SlurmUser 的写权限,则不会生成核心文件。信号
- SIGTERM SIGINT SIGQUIT
- slurmctld 将干净地关闭,将其当前状态保存到状态保存目录。
-
- SIGABRT
- slurmctld 将干净地关闭,保存其当前状态,并执行核心转储。
-
- SIGHUP
- 重新加载 slurm 配置文件,类似于 'scontrol reconfigure'。
-
- SIGTSTP
- 从终端停止进程。这也会停止 slurmscriptd。
-
- SIGUSR2
- 从配置中重新读取日志级别,然后重新打开日志文件。这应在设置logrotate(8)时使用。
-
- SIGCHLD SIGUSR1 SIGXCPU SIGPIPE SIGALRM
- 这些信号被显式忽略。
-
备注
尝试使用不同的slurmctld特定配置参数(例如超时)使用不同的配置文件可能会很有用。然而,除非您特别告诉每个守护进程使用它,否则此特殊配置文件不会被slurmd守护进程或 Slurm 程序使用。如果您希望更改通信端口、临时文件系统的位置或其他 Slurm 组件使用的参数,请更改通用配置文件slurm.conf。版权
版权 (C) 2002-2007 加州大学理事会。 版权 (C) 2008-2010 劳伦斯利弗莫尔国家实验室。 版权 (C) 2010-2022 SchedMD LLC。 在劳伦斯利弗莫尔国家实验室制作(参见免责声明)。 CODE-OCEC-09-009。保留所有权利。此文件是 Slurm 的一部分,一个资源管理程序。 有关详细信息,请参见 <https://slurm.schedmd.com/>。
Slurm 是自由软件;您可以根据自由软件基金会发布的 GNU 通用公共许可证的条款重新分发和/或修改它;许可证的第 2 版,或(根据您的选择)任何更高版本。
Slurm 的分发是希望它会有用,但不提供任何担保;甚至没有适销性或特定用途的隐含担保。有关详细信息,请参见 GNU 通用公共许可证。
另见
slurm.conf(5), slurmd(8)
索引
此文档由 man2html 使用手册页创建。
时间:2025年7月2日 13:21:54 GMT