acct_gather.conf
Section: Slurm 配置文件 (5)更新: Slurm 配置文件
索引
名称
acct_gather.conf - Slurm 的 acct_gather 插件的配置文件描述
acct_gather.conf 是一个 UTF8 格式的文件,定义了 Slurm 的 acct_gather 相关插件使用的参数。 该文件将始终位于与 slurm.conf 相同的目录中。
参数名称不区分大小写,但参数值区分大小写。 配置文件中以 "#" 开头的任何文本都被视为注释,直到该行结束。 文件中每行的大小限制为 1024 个字符。
对配置文件的更改在 Slurm 守护进程重启时生效。
以下 acct_gather.conf 参数用于控制 Slurm 中各种插件的一般行为。
acct_gather.conf 文件不同于其他 Slurm .conf 文件。每个插件定义可用的选项。要加载的每个插件必须在 slurm.conf 中指定以下配置条目:
• AcctGatherEnergyType (插件类型=acct_gather_energy)
• AcctGatherInterconnectType (插件类型=acct_gather_interconnect)
• AcctGatherFilesystemType (插件类型=acct_gather_filesystem)
• AcctGatherProfileType (插件类型=acct_gather_profile)
如果未加载相应选项的插件,则该选项将对 Slurm 不可知,导致守护进程在初始化时出现致命错误。 如果您决定在 slurm.conf 中更改插件类型,请确保也在 acct_gather.conf 中更改相关选项。
acct_gather_energy/gpu
在 slurm.conf 中的必需条目:-
AcctGatherEnergyType=acct_gather_energy/gpu
插件提供的数据集为:能量。
acct_gather_energy/IPMI
在 slurm.conf 中的必需条目:-
AcctGatherEnergyType=acct_gather_energy/ipmi
用于 acct_gather_energy/ipmi 的选项如下:
-
- EnergyIPMIFrequency=<number>
- 此参数是 BMC 访问样本之间的秒数。 理想情况下,它应该大于或等于 JobAcctGatherFrequency,否则 JobAcctGather 插件将在连续轮询中获得重复值。
-
- EnergyIPMICalcAdjustment=<yes|no>
- 如果设置为 "yes",则在最后一次 BMC 访问样本和步骤消耗更新之间的消耗被近似,以获得更准确的任务消耗。 该调整在步骤开始时进行,并且每次更新消耗时,包括步骤结束时。近似值不累积,仅使用第一次和最后一次调整来计算消耗。默认值为 "no"。
-
- EnergyIPMIPowerSensors=<key=values>
- 可选地指定要使用的传感器的 ID。
多个 <key=values> 可以使用 ";" 分隔符设置。
键 "Node" 是必需的,用于知道节点(scontrol show node)和作业(sacct)的消耗能量。
其他键是可选的,由管理员命名。
这些键仅在激活能量配置文件以存储每个键的功率(以瓦特为单位)时有用。
<values> 是整数,除非使用 DCMI。多个值可以使用 "," 分隔符设置。列出传感器的总和用于每个键。
EnergyIPMIPowerSensors 是可选的,默认值为 "Node=<value>",其中 "<value>" 是 ipmi-sensors 返回的第一个功率传感器的 ID。
即:
EnergyIPMIPowerSensors=Node=16,19,23,26;Socket0=16,23;Socket1=19,26;SSUP=23,26;KNC=16,19
EnergyIPMIPowerSensors=Node=29,32;SSUP0=29;SSUP1=32
EnergyIPMIPowerSensors=Node=1280数据中心可管理性接口 - acct_gather_energy/ipmi 支持通过 DCMI IPMI 扩展命令收集功率数据。当配置时,ipmi 插件将根据配置查询 DCMI,使用 "系统电源模式" 或 "增强系统电源统计模式" 标志。
要配置其中之一,可以使用特殊传感器值 DCMI 或 DCMI_ENHANCED,例如:
EnergyIPMIPowerSensors=Node=DCMI
EnergyIPMIPowerSensors=Node=DCMI_ENHANCED
以下 acct_gather.conf 参数用于控制 libipmiconsole 的 IPMI 配置默认值。
插件提供的数据集名称为:<IPMI_SENSOR_LABEL>Power。
注意:
此插件需要安装并在配置时可链接的 freeipmi 开发文件。否则插件将无法构建。当构建 RPM 时,可以指定rpmbuild ... --with freeipmi以显式检查这些依赖项。
acct_gather_energy/rapl
在 slurm.conf 中的必需条目:-
AcctGatherEnergyType=acct_gather_energy/rapl
插件提供的数据集为:功率。
acct_gather_energy/XCC
在 slurm.conf 中的必需条目:-
AcctGatherEnergyType=acct_gather_energy/xcc
用于 acct_gather_energy/xcc 的选项仅包括与 XClarity 控制器的带内通信,因此支持的配置集减少:
acct_gather_filesystem/lustre
在 slurm.conf 中的必需条目:-
AcctGatherFilesystemType=acct_gather_filesystem/lustre
插件提供的数据集为:读取,读取 MB,写入,写入 MB。
acct_gather_profile/HDF5
在 slurm.conf 中的必需条目:-
AcctGatherProfileType=acct_gather_profile/hdf5
用于 acct_gather_profile/hdf5 的选项如下:
acct_gather_profile/InfluxDB
在 slurm.conf 中的必需条目:-
AcctGatherProfileType=acct_gather_profile/influxdb
InfluxDB 插件提供与 HDF5 插件相同的信息,但将信息发送到配置的 InfluxDB 服务器。
InfluxDB 插件是针对 InfluxDB 1.x 协议设计的。任何运行 v2.x InfluxDB 服务器的站点需要配置 v1.x 兼容端点以及正确的用户和密码授权。当前不支持令牌身份验证。
选项:
- ProfileInfluxDBDatabase
- InfluxDB v1.x 数据库名称,配置文件信息将写入其中。 InfluxDB v2.x 桶名称,配置文件信息将写入其中。
-
- ProfileInfluxDBDefault
- 每次作业提交要收集的数据类型的逗号分隔列表。 允许的值为:
ProfileInfluxDBHost=myinfluxhost:8086
注意:
此插件需要安装并在配置时可链接的 libcurl 开发文件。否则插件将无法构建。
有关如何安装和配置 InfluxDB 以及管理数据库、保留策略等的信息,请访问官方网站。
收集的信息从每个运行作业的计算节点写入监听 ProfileInfluxDBHost 的 InfluxDB 实例。为了避免因传入连接请求而过载 InfluxDB 实例,插件使用内部缓冲区填充样本。一旦缓冲区满,将执行 HTTP API 写请求,并清空缓冲区以保存后续样本。当任务结束时,即使缓冲区未满,也会执行最终请求。
失败的 HTTP API 写请求将被静默丢弃。这意味着如果由于任何原因无法将插件缓冲区中的收集的配置文件信息写入 InfluxDB 数据库,则该信息将丢失。
插件消息与 slurmstepd 日志一起记录到 SlurmdLogFile。为了排除任何问题,建议暂时将 slurmd 调试级别提高到 debug3,并将 Profile 添加到调试标志。这可以通过分别设置 slurm.conf 中的 SlurmdDebug 和 DebugFlags 或通过 scontrol setdebug 和 setdebugflags 动态完成。
Grafana 可用于基于 InfluxDB 中的数据创建图表。 这种工具允许创建仪表板、表格和其他图形,使用存储的时间序列。
acct_gather_interconnect/OFED
在 slurm.conf 中的必需条目:-
AcctGatherInterconnectType=acct_gather_interconnect/ofed
用于 acct_gather_interconnect/ofed 的选项如下:
插件提供的数据集:PacketsIn,PacketsOut,InMB,OutMB
acct_gather_interconnect/sysfs
在 slurm.conf 中的必需条目:-
AcctGatherInterconnectType=acct_gather_interconnect/sysfs
用于 acct_gather_interconnect/sysfs 的选项如下:
插件提供的数据集:PacketsIn,PacketsOut,InMB,OutMB
示例
### # Slurm acct_gather 配置文件 ### # acct_gather_energy/impi 插件的参数 EnergyIPMIFrequency=10 EnergyIPMICalcAdjustment=yes # # acct_gather_profile/hdf5 插件的参数 ProfileHDF5Dir=/app/slurm/profile_data # acct_gather_interconnect/ofed 插件的参数 InfinibandOFEDPort=1
版权
版权所有 (C) 2012-2013 Bull. 版权所有 (C) 2012-2022 SchedMD LLC. 在 Bull 制作 (cf, 免责声明)。此文件是 Slurm 的一部分,一个资源管理程序。 有关详细信息,请参阅 <https://slurm.schedmd.com/>。
Slurm 是自由软件;您可以根据自由软件基金会发布的 GNU 通用公共许可证的条款重新分发和/或修改它;许可证的版本 2,或(根据您的选择)任何更高版本。
Slurm 的分发是希望它将是有用的,但不提供任何担保;甚至不提供适销性或特定用途适用性的暗示担保。有关详细信息,请参阅 GNU 通用公共许可证。
另请参阅
slurm.conf(5)
索引
- 名称
- 描述
- acct_gather_energy/gpu
- acct_gather_energy/IPMI
- acct_gather_energy/rapl
- acct_gather_energy/XCC
- acct_gather_filesystem/lustre
- acct_gather_profile/HDF5
- acct_gather_profile/InfluxDB
此文档由 man2html 使用手册页创建。
时间:2025年7月2日 13:21:55 GMT