sh5util
部分:Slurm 命令 (1)更新:Slurm 命令
索引
名称
sh5util - 用于合并来自 acct_gather_profile 插件的 HDF5 文件,该插件收集在 Slurm 下运行的作业的详细数据
概要
sh5util
描述
sh5util 将每个节点在作业每个步骤中生成的 HDF5 文件合并为一个 HDF5 文件。生成的文件可以通过常见的 HDF5 工具(如 HDF5View、h5dump、h5edit 或 h5ls)进行查看和操作。
sh5util 还具有两种提取模式。第一种模式以“逗号分隔值”形式将特定节点、步骤和数据系列的有限数据集写入文件,该文件可以导入到其他分析工具(如电子表格)中。
第二种模式(项目提取)从作业的 HDF5 配置文件中提取所有节点上所有样本的一个时间序列中的一个数据项。
- 查找项目的最大值样本。
- 为每个节点的每个样本写入包含最小值、平均值、最大值和项目总数的 CSV 文件。
选项
从合并的作业文件中提取所有节点的一个数据系列的所有样本中的一个数据项。
打印作业文件中系列的项目。
每个系列的数据项
- 能量
-
功率
CPU_频率
-
功率
-
- 文件系统
-
读取
读取的兆字节
写入
写入的兆字节
-
读取
-
- 网络
-
输入数据包
输入的兆字节
输出数据包
输出的兆字节
-
输入数据包
-
- 任务
-
CPU_频率
CPU_时间
CPU_利用率
RSS
虚拟内存大小
页面
读取的兆字节
写入的兆字节
-
CPU_频率
-
性能
执行 sh5util 会向 slurmctld 发送远程过程调用。如果来自 sh5util 或其他向 slurmctld 守护进程发送远程过程调用的 Slurm 客户端命令的调用过多,可能会导致 slurmctld 守护进程的性能下降,甚至可能导致服务拒绝。
请勿在 shell 脚本或其他程序的循环中运行 sh5util 或其他向 slurmctld 发送远程过程调用的 Slurm 客户端命令。确保程序将对 sh5util 的调用限制在收集信息所需的最小范围内。
示例
- 合并节点步骤文件(作为 sbatch 脚本的一部分):
-
$ sbatch -n1 -d$SLURM_JOB_ID --wrap="sh5util --savefiles -j $SLURM_JOB_ID"
- 从节点提取所有任务数据:
-
$ sh5util -j 42 -N snowflake01 --level=Node:TimeSeries --series=Tasks
- 提取所有能量数据:
-
$ sh5util -j 42 --series=Energy --data=power
版权
版权 (C) 2013 Bull.版权 (C) 2013-2022 SchedMD LLC。 Slurm 是自由软件;您可以根据自由软件基金会发布的 GNU 通用公共许可证的条款重新分发和/或修改它;无论是许可证的第 2 版,还是(根据您的选择)任何更高版本。
Slurm 的发布是希望它能有用,但不提供任何保证;甚至没有适销性或特定用途适用性的隐含保证。有关更多详细信息,请参阅 GNU 通用公共许可证。
另见
索引
此文档由 man2html 使用手册页创建。
时间:2025年7月2日 13:21:56 GMT