acct_gather.conf

Section: Slurm 配置文件 (5)
更新: Slurm 配置文件
索引

 

名称

acct_gather.conf - Slurm 的 acct_gather 插件的配置文件

 

描述

acct_gather.conf 是一个 UTF8 格式的文件,定义了 Slurm 的 acct_gather 相关插件使用的参数。 该文件将始终位于与 slurm.conf 相同的目录中。

参数名称不区分大小写,但参数值区分大小写。 配置文件中以 "#" 开头的任何文本都被视为注释,直到该行结束。 文件中每行的大小限制为 1024 个字符。

对配置文件的更改在 Slurm 守护进程重启时生效。

以下 acct_gather.conf 参数用于控制 Slurm 中各种插件的一般行为。

acct_gather.conf 文件不同于其他 Slurm .conf 文件。每个插件定义可用的选项。要加载的每个插件必须在 slurm.conf 中指定以下配置条目:

• AcctGatherEnergyType (插件类型=acct_gather_energy)
• AcctGatherInterconnectType (插件类型=acct_gather_interconnect)
• AcctGatherFilesystemType (插件类型=acct_gather_filesystem)
• AcctGatherProfileType (插件类型=acct_gather_profile)

如果未加载相应选项的插件,则该选项将对 Slurm 不可知,导致守护进程在初始化时出现致命错误。 如果您决定在 slurm.conf 中更改插件类型,请确保也在 acct_gather.conf 中更改相关选项。

 

acct_gather_energy/gpu

在 slurm.conf 中的必需条目:
AcctGatherEnergyType=acct_gather_energy/gpu
此插件不从 acct_gather.conf 中读取任何选项。
插件提供的数据集为:能量。

 

acct_gather_energy/IPMI

在 slurm.conf 中的必需条目:
AcctGatherEnergyType=acct_gather_energy/ipmi

用于 acct_gather_energy/ipmi 的选项如下:

EnergyIPMIFrequency=<number>
此参数是 BMC 访问样本之间的秒数。 理想情况下,它应该大于或等于 JobAcctGatherFrequency,否则 JobAcctGather 插件将在连续轮询中获得重复值。

EnergyIPMICalcAdjustment=<yes|no>
如果设置为 "yes",则在最后一次 BMC 访问样本和步骤消耗更新之间的消耗被近似,以获得更准确的任务消耗。 该调整在步骤开始时进行,并且每次更新消耗时,包括步骤结束时。近似值不累积,仅使用第一次和最后一次调整来计算消耗。默认值为 "no"。

EnergyIPMIPowerSensors=<key=values>
可选地指定要使用的传感器的 ID。 多个 <key=values> 可以使用 ";" 分隔符设置。 键 "Node" 是必需的,用于知道节点(scontrol show node)和作业(sacct)的消耗能量。 其他键是可选的,由管理员命名。 这些键仅在激活能量配置文件以存储每个键的功率(以瓦特为单位)时有用。 <values> 是整数,除非使用 DCMI。多个值可以使用 "," 分隔符设置。列出传感器的总和用于每个键。 EnergyIPMIPowerSensors 是可选的,默认值为 "Node=<value>",其中 "<value>" 是 ipmi-sensors 返回的第一个功率传感器的 ID。
即:
EnergyIPMIPowerSensors=Node=16,19,23,26;Socket0=16,23;Socket1=19,26;SSUP=23,26;KNC=16,19
EnergyIPMIPowerSensors=Node=29,32;SSUP0=29;SSUP1=32
EnergyIPMIPowerSensors=Node=1280

数据中心可管理性接口 - acct_gather_energy/ipmi 支持通过 DCMI IPMI 扩展命令收集功率数据。当配置时,ipmi 插件将根据配置查询 DCMI,使用 "系统电源模式" 或 "增强系统电源统计模式" 标志。

要配置其中之一,可以使用特殊传感器值 DCMI 或 DCMI_ENHANCED,例如:
EnergyIPMIPowerSensors=Node=DCMI
EnergyIPMIPowerSensors=Node=DCMI_ENHANCED

以下 acct_gather.conf 参数用于控制 libipmiconsole 的 IPMI 配置默认值。

EnergyIPMIUsername=USERNAME
指定 BMC 用户名。

EnergyIPMIPassword=PASSWORD
指定 BMC 密码。

插件提供的数据集名称为:<IPMI_SENSOR_LABEL>Power。

 

注意:

此插件需要安装并在配置时可链接的 freeipmi 开发文件。否则插件将无法构建。当构建 RPM 时,可以指定rpmbuild ... --with freeipmi以显式检查这些依赖项。

 

acct_gather_energy/rapl

在 slurm.conf 中的必需条目:
AcctGatherEnergyType=acct_gather_energy/rapl
此插件不从 acct_gather.conf 中读取任何选项。
插件提供的数据集为:功率。

 

acct_gather_energy/XCC

在 slurm.conf 中的必需条目:
AcctGatherEnergyType=acct_gather_energy/xcc

用于 acct_gather_energy/xcc 的选项仅包括与 XClarity 控制器的带内通信,因此支持的配置集减少:

EnergyIPMIFrequency=<number>
此参数是 XCC 访问样本之间的秒数。 默认值为 30 秒。

EnergyIPMITimeout=<number>
初始化 IPMI XCC 上下文以进行新收集线程的超时,单位为秒。默认值为 10 秒。

插件提供的数据集为:能量,当前功率。

 

acct_gather_filesystem/lustre

在 slurm.conf 中的必需条目:
AcctGatherFilesystemType=acct_gather_filesystem/lustre
此插件不从 acct_gather.conf 中读取任何选项。
插件提供的数据集为:读取,读取 MB,写入,写入 MB。

 

acct_gather_profile/HDF5

在 slurm.conf 中的必需条目:
AcctGatherProfileType=acct_gather_profile/hdf5

用于 acct_gather_profile/hdf5 的选项如下:

ProfileHDF5Dir=<path>
此参数是 acct_gather_profile 插件将写入的详细数据的共享文件夹路径(通常为 HDF5 文件)。 假定该目录位于控制器和所有计算节点共享的文件系统上。这是一个必需参数。

ProfileHDF5Default
每次作业提交要收集的数据类型的逗号分隔列表。 允许的值为:
全部
收集所有数据类型。(不能与其他值结合使用。)

未收集任何数据类型。这是默认值。 (不能与其他值结合使用。)

能量
收集能量数据。

文件系统
收集文件系统(Lustre)数据。

网络
收集网络(InfiniBand)数据。

任务
收集任务(I/O,内存,...)数据。

 

acct_gather_profile/InfluxDB

在 slurm.conf 中的必需条目:
AcctGatherProfileType=acct_gather_profile/influxdb

InfluxDB 插件提供与 HDF5 插件相同的信息,但将信息发送到配置的 InfluxDB 服务器。

InfluxDB 插件是针对 InfluxDB 1.x 协议设计的。任何运行 v2.x InfluxDB 服务器的站点需要配置 v1.x 兼容端点以及正确的用户和密码授权。当前不支持令牌身份验证。  

选项:

ProfileInfluxDBDatabase
InfluxDB v1.x 数据库名称,配置文件信息将写入其中。 InfluxDB v2.x 桶名称,配置文件信息将写入其中。

ProfileInfluxDBDefault
每次作业提交要收集的数据类型的逗号分隔列表。 允许的值为:
全部
收集所有数据类型。不能与其他值结合使用。

未收集任何数据类型。这是默认值。 不能与其他值结合使用。

能量
收集能量数据。

文件系统
收集文件系统(Lustre)数据。

网络
收集网络(InfiniBand)数据。

任务
收集任务(I/O,内存,...)数据。

ProfileInfluxDBHost=<hostname>:<port>
运行 InfluxDB 实例的机器的主机名和 HTTP API 使用的端口。HTTP API 使用的端口是通过 [http] 部分中的 bind-address influxdb.conf 选项配置的。 示例:
ProfileInfluxDBHost=myinfluxhost:8086

ProfileInfluxDBPass
ProfileInfluxDBUser 中配置的用户名的密码。在 v2.x 中为必需,在 v1.x InfluxDB 中为可选。

ProfileInfluxDBRTPolicy
配置在 ProfileInfluxDBDatabase 选项中的数据库的 InfluxDB v1.x 保留策略名称。配置在 ProfileInfluxDBDatabase 选项中的数据库的 InfluxDB v2.x 保留策略桶名称。

ProfileInfluxDBUser
应使用的 InfluxDB 用户名,以访问配置在 ProfileInfluxDBDatabase 中的数据库。在 v2.x 中为必需,在 v1.x InfluxDB 中为可选。 仅在 InfluxDB v1.x 配置为启用身份验证时需要,并且用户已被授予至少对数据库的写入访问权限。另请参见 ProfileInfluxDBPass

ProfileInfluxDBTimeout=<seconds>
对 InfluxDB 服务器的 HTTP 查询可以花费的最长时间(以秒为单位)。 在此超时后,数据将被丢弃。请注意,较长的超时可能会耗尽您的节点,如果 InfluxDB 服务器无响应,并且在终止作业时,最后的数据集花费的时间超过 UnkillableStepTimeout。内部,该选项设置 CURLOPT_TIMEOUT 库选项。默认值为 10 秒。

 

注意:

此插件需要安装并在配置时可链接的 libcurl 开发文件。否则插件将无法构建。

有关如何安装和配置 InfluxDB 以及管理数据库、保留策略等的信息,请访问官方网站。

收集的信息从每个运行作业的计算节点写入监听 ProfileInfluxDBHost 的 InfluxDB 实例。为了避免因传入连接请求而过载 InfluxDB 实例,插件使用内部缓冲区填充样本。一旦缓冲区满,将执行 HTTP API 写请求,并清空缓冲区以保存后续样本。当任务结束时,即使缓冲区未满,也会执行最终请求。

失败的 HTTP API 写请求将被静默丢弃。这意味着如果由于任何原因无法将插件缓冲区中的收集的配置文件信息写入 InfluxDB 数据库,则该信息将丢失。

插件消息与 slurmstepd 日志一起记录到 SlurmdLogFile。为了排除任何问题,建议暂时将 slurmd 调试级别提高到 debug3,并将 Profile 添加到调试标志。这可以通过分别设置 slurm.conf 中的 SlurmdDebug 和 DebugFlags 或通过 scontrol setdebug 和 setdebugflags 动态完成。

Grafana 可用于基于 InfluxDB 中的数据创建图表。 这种工具允许创建仪表板、表格和其他图形,使用存储的时间序列。

 

acct_gather_interconnect/OFED

在 slurm.conf 中的必需条目:
AcctGatherInterconnectType=acct_gather_interconnect/ofed

用于 acct_gather_interconnect/ofed 的选项如下:

InfinibandOFEDPort=<number>
此参数表示我们希望监控的本地 Infiniband 卡的端口号。 默认端口为 1。
插件提供的数据集:PacketsIn,PacketsOut,InMB,OutMB

 

acct_gather_interconnect/sysfs

在 slurm.conf 中的必需条目:
AcctGatherInterconnectType=acct_gather_interconnect/sysfs

用于 acct_gather_interconnect/sysfs 的选项如下:

SysfsInterfaces=<interfaces>
要收集统计信息的接口名称的逗号分隔列表。所有列出的接口的使用将被汇总,而不会单独分解。
插件提供的数据集:PacketsIn,PacketsOut,InMB,OutMB

 

示例

###
# Slurm acct_gather 配置文件
###
# acct_gather_energy/impi 插件的参数
EnergyIPMIFrequency=10
EnergyIPMICalcAdjustment=yes
#
# acct_gather_profile/hdf5 插件的参数
ProfileHDF5Dir=/app/slurm/profile_data
# acct_gather_interconnect/ofed 插件的参数
InfinibandOFEDPort=1

 

版权

版权所有 (C) 2012-2013 Bull. 版权所有 (C) 2012-2022 SchedMD LLC. 在 Bull 制作 (cf, 免责声明)。

此文件是 Slurm 的一部分,一个资源管理程序。 有关详细信息,请参阅 <https://slurm.schedmd.com/>。

Slurm 是自由软件;您可以根据自由软件基金会发布的 GNU 通用公共许可证的条款重新分发和/或修改它;许可证的版本 2,或(根据您的选择)任何更高版本。

Slurm 的分发是希望它将是有用的,但不提供任何担保;甚至不提供适销性或特定用途适用性的暗示担保。有关详细信息,请参阅 GNU 通用公共许可证。

 

另请参阅

slurm.conf(5)


 

索引

名称
描述
acct_gather_energy/gpu
acct_gather_energy/IPMI
注意:
acct_gather_energy/rapl
acct_gather_energy/XCC
acct_gather_filesystem/lustre
acct_gather_profile/HDF5
acct_gather_profile/InfluxDB
选项:
注意:
acct_gather_interconnect/OFED
acct_gather_interconnect/sysfs
示例
版权
另请参阅

此文档由 man2html 使用手册页创建。
时间:2025年7月2日 13:21:55 GMT