作业原因代码

这些原因代码可用于识别为什么待处理的作业尚未由调度程序启动。作业无法启动可能有多个原因,在这种情况下,仅显示尝试调度方法遇到的原因。有关更多详细信息,请参阅 调度配置指南

常见原因

  • AssocGrp* — 作业的关联已达到总限制
  • AssocMax* — 作业请求的某部分超过了请求的关联的最大限制(例如,每个作业、每个节点)。
  • BeginTime — 作业的最早开始时间尚未到达。
  • Dependency — 此作业依赖于另一个尚未满足的作业的依赖关系
  • Max*PerAccount — 作业请求的某部分超过了作业的QOS的每个账户限制
  • Priority — 与该作业相关的分区或高级预留存在一个或多个更高优先级的作业。
  • QOSGrp* — 作业的QOS已达到总限制
  • QOSMax* — 作业请求的某部分超过了请求的QOS的最大限制(例如,每个作业、每个节点)。
  • Resources — 作业请求的资源不可用(例如,已被其他作业使用)。

所有原因

  • AccountingPolicy — 当其他原因不匹配时的后备原因。
  • AccountNotAllowed — 作业在不允许的账户中。
  • AssocGrpBB — 作业的关联已达到其总突发缓冲区限制。
  • AssocGrpBBMinutes — 作业的关联已达到过去、现在和未来作业允许的总突发缓冲区分钟数的最大值。
  • AssocGrpBBRunMinutes — 作业的关联已达到当前运行作业允许的总突发缓冲区分钟数的最大值。
  • AssocGrpBilling — 作业的关联已达到其总计费限制。
  • AssocGrpBillingMinutes — 作业的关联已达到过去、现在和未来作业允许的总计费资源分钟数的最大值。
  • AssocGrpBillingRunMinutes — 作业的关联已达到当前运行作业允许的总计费资源分钟数的最大值。
  • AssocGrpCpuLimit — 作业的关联已达到其总CPU限制。
  • AssocGrpCPUMinutesLimit — 作业的关联已达到过去、现在和未来作业允许的总CPU分钟数的最大值。
  • AssocGrpCPURunMinutesLimit — 作业的关联已达到当前运行作业允许的总CPU分钟数的最大值。
  • AssocGrpEnergy — 作业的关联已达到其总能量限制。
  • AssocGrpEnergyMinutes — 作业的关联已达到过去、现在和未来作业允许的总能量分钟数的最大值。
  • AssocGrpEnergyRunMinutes — 作业的关联已达到当前运行作业允许的总能量分钟数的最大值。
  • AssocGrpGRES — 作业的关联已达到其总GRES限制。
  • AssocGrpGRESMinutes — 作业的关联已达到过去、现在和未来作业允许的总GRES分钟数的最大值。
  • AssocGrpGRESRunMinutes — 作业的关联已达到当前运行作业允许的总GRES分钟数的最大值。
  • AssocGrpJobsLimit — 作业的关联已达到允许的作业总数的最大值。
  • AssocGrpLicense — 作业的关联已达到其总许可证限制。
  • AssocGrpLicenseMinutes — 作业的关联已达到过去、现在和未来作业允许的总许可证分钟数的最大值。
  • AssocGrpLicenseRunMinutes — 作业的关联已达到当前运行作业允许的总许可证分钟数的最大值。
  • AssocGrpMemLimit — 作业的关联已达到其总内存限制。
  • AssocGrpMemMinutes — 作业的关联已达到过去、现在和未来作业允许的总内存分钟数的最大值。
  • AssocGrpMemRunMinutes — 作业的关联已达到当前运行作业允许的总内存分钟数的最大值。
  • AssocGrpNodeLimit — 作业的关联已达到其总节点限制。
  • AssocGrpNodeMinutes — 作业的关联已达到过去、现在和未来作业允许的总节点分钟数的最大值。
  • AssocGrpNodeRunMinutes — 作业的关联已达到当前运行作业允许的总节点分钟数的最大值。
  • AssocGrpSubmitJobsLimit — 作业的关联已达到在给定时间内可以运行或待处理的作业最大数。
  • AssocGrpUnknown — 作业的关联已达到其未知通用资源的总限制。
  • AssocGrpUnknownMinutes — 作业的关联已达到过去、现在和未来作业允许的总未知通用资源分钟数的最大值。
  • AssocGrpUnknownRunMinutes — 作业的关联已达到当前运行作业允许的总未知通用资源分钟数的最大值。
  • AssocGrpWallLimit — 作业的关联已达到运行作业请求的墙时间的总限制。
  • AssocMaxBBMinutesPerJob — 突发缓冲区请求超过每个作业允许使用的最大分钟数。
  • AssocMaxBBPerJob — 突发缓冲区请求超过每个作业允许使用的最大数量。
  • AssocMaxBBPerNode — 突发缓冲区请求超过作业分配中每个节点允许使用的最大数量。
  • AssocMaxBillingMinutesPerJob — 请求超过每个作业允许使用的最大分钟数,考虑到计费的情况。
  • AssocMaxBillingPerJob — 资源请求超过每个作业允许使用的最大计费限制。
  • AssocMaxBillingPerNode — 请求超过作业分配中每个节点允许使用的最大计费限制。
  • AssocMaxCpuMinutesPerJobLimit — CPU请求超过每个作业允许使用的最大分钟数。
  • AssocMaxCpuPerJobLimit — CPU请求超过每个作业允许使用的最大数量。
  • AssocMaxCpuPerNode — 请求超过作业分配中每个节点允许使用的最大CPU数量。
  • AssocMaxEnergyMinutesPerJob — 能量请求超过每个作业允许使用的最大分钟数。
  • AssocMaxEnergyPerJob — 能量请求超过每个作业允许使用的最大数量。
  • AssocMaxEnergyPerNode — 请求超过作业分配中每个节点允许使用的最大能量数量。
  • AssocMaxGRESMinutesPerJob — GRES请求超过每个作业允许使用的最大分钟数。
  • AssocMaxGRESPerJob — GRES请求超过每个作业允许使用的最大数量。
  • AssocMaxGRESPerNode — 请求超过作业分配中每个节点允许使用的最大GRES数量。
  • AssocMaxJobsLimit — 每个用户在给定时间内允许运行的作业数量限制已达到。
  • AssocMaxLicenseMinutesPerJob — 许可证请求超过每个作业允许使用的最大分钟数。
  • AssocMaxLicensePerJob — 许可证请求超过每个作业允许使用的最大数量。
  • AssocMaxMemMinutesPerJob — 内存请求超过每个作业允许使用的最大分钟数。
  • AssocMaxMemPerJob — 内存请求超过每个作业允许使用的最大数量。
  • AssocMaxMemPerNode — 请求超过作业分配中每个节点允许使用的最大内存数量。
  • AssocMaxNodeMinutesPerJob — 请求的节点数量超过每个作业允许使用的最大分钟数。
  • AssocMaxNodePerJobLimit — 请求的节点数量超过每个作业允许使用的最大数量。
  • AssocMaxSubmitJobLimit — 每个用户在给定时间内允许有运行或待处理作业的数量限制已达到。
  • AssocMaxUnknownMinutesPerJob — 请求的未知可追踪资源超过每个作业允许使用的最大分钟数。
  • AssocMaxUnknownPerJob — 请求的未知可追踪资源超过每个作业允许使用的最大数量。
  • AssocMaxUnknownPerNode — 请求超过作业分配中每个节点允许使用的最大未知可追踪资源数量。
  • AssocMaxUnknownPerUser — 请求超过每个用户允许使用的最大未知可追踪资源数量。
  • AssocMaxWallDurationPerJobLimit — 作业请求的墙时间限制已超过。
  • AssociationJobLimit — 作业的关联已达到其最大作业数量。
  • AssociationResourceLimit — 作业的关联已达到某些资源限制。
  • AssociationTimeLimit — 作业的关联已达到其时间限制。
  • BadConstraints — 作业的约束无法满足。
  • BeginTime — 作业的最早开始时间尚未到达。
  • BurstBufferOperation — 作业的突发缓冲区操作失败。
  • BurstBufferResources — 突发缓冲区资源池中的资源不足。
  • BurstBufferStageIn — 突发缓冲区插件正在为作业准备环境。
  • Cleaning — 作业正在重新排队,并仍在清理其先前执行的内容。
  • DeadLine — 此作业违反了配置的截止时间。
  • Dependency — 此作业依赖于尚未满足的另一个作业。
  • DependencyNeverSatisfied — 此作业依赖于将永远不会满足的另一个作业。
  • FedJobLock — 作业正在等待联邦中的集群同步并发出锁定。
  • InactiveLimit — 作业达到了系统的非活动限制。
  • InvalidAccount — 作业的账户无效。
  • InvalidQOS — 作业的QOS无效。
  • JobArrayTaskLimit — 作业数组的同时运行任务数量限制已达到。
  • JobHeldAdmin — 作业被系统管理员保留。
  • JobHeldUser — 作业被用户保留。
  • JobHoldMaxRequeue — 作业已被重新排队足够多次,达到了MAX_BATCH_REQUEUE限制。
  • JobLaunchFailure — 作业无法启动。这可能是由于文件系统问题、无效的程序名称等。
  • Licenses — 作业正在等待许可证。
  • MaxBBPerAccount — 作业的突发缓冲区请求超过了作业的QOS的每个账户限制。
  • MaxBillingPerAccount — 作业的计费请求超过了作业的QOS的每个账户限制。
  • MaxCpuPerAccount — 作业的CPU请求超过了作业的QOS的每个账户限制。
  • MaxEnergyPerAccount — 作业的能量请求超过了作业的QOS的每个账户限制。
  • MaxGRESPerAccount — 作业的GRES请求超过了作业的QOS的每个账户限制。
  • MaxJobsPerAccount — 此作业超过了作业的QOS的每个账户允许的作业数量限制。
  • MaxLicensePerAccount — 作业的许可证请求超过了作业的QOS的每个账户限制。
  • MaxMemoryPerAccount — 作业的内存请求超过了作业的QOS的每个账户限制。
  • MaxMemPerLimit — 作业违反了每个CPU或每个节点的最大内存限制。
  • MaxNodePerAccount — 作业请求的节点数量超过了作业的QOS的每个账户的节点数量限制。
  • MaxSubmitJobsPerAccount — 此作业超过了作业的QOS的每个账户在待处理或运行状态下允许的作业数量限制。
  • MaxUnknownPerAccount — 作业请求的未知GRES超过了作业的QOS的每个账户限制。
  • NodeDown — 作业所需的节点已关闭。
  • NonZeroExitCode — 作业以非零退出代码终止。
  • None — 作业尚未分配原因。
  • OutOfMemory — 作业因内存不足而失败。
  • PartitionConfig — 当作业违反分区的某些限制时的后备原因。
  • PartitionDown — 此作业所需的分区处于关闭状态。
  • PartitionInactive — 此作业所需的分区处于非活动状态,无法启动作业。
  • PartitionNodeLimit — 此作业所需的节点数量超出了其分区的当前限制。也可能表示所需节点处于关闭或排水状态。
  • PartitionTimeLimit — 作业的时间限制超过了其分区的当前时间限制。
  • Priority — 与该作业相关的分区或高级预留存在一个或多个更高优先级的作业。
  • Prolog — 作业的Prolog程序仍在运行。
  • QOSGrpBB — 作业的QOS已达到其总突发缓冲区限制。
  • QOSGrpBBMinutes — 作业的QOS已达到过去、现在和未来作业允许的总突发缓冲区分钟数的最大值。
  • QOSGrpBBRunMinutes — 作业的QOS已达到当前运行作业允许的总突发缓冲区分钟数的最大值。
  • QOSGrpBilling — 作业的QOS已达到其总计费限制。
  • QOSGrpBillingMinutes — 作业的QOS已达到过去、现在和未来作业允许的总计费资源分钟数的最大值。
  • QOSGrpBillingRunMinutes — 作业的QOS已达到当前运行作业允许的总计费资源分钟数的最大值。
  • QOSGrpCpuLimit — 作业的QOS已达到其总CPU限制。
  • QOSGrpCPUMinutesLimit — 作业的QOS已达到过去、现在和未来作业允许的总CPU分钟数的最大值。
  • QOSGrpCPURunMinutesLimit — 作业的QOS已达到当前运行作业允许的总CPU分钟数的最大值。
  • QOSGrpEnergy — 作业的QOS已达到其总能量限制。
  • QOSGrpEnergyMinutes — 作业的QOS已达到过去、现在和未来作业允许的总能量分钟数的最大值。
  • QOSGrpEnergyRunMinutes — 作业的QOS已达到当前运行作业允许的总能量分钟数的最大值。
  • QOSGrpGRES — 作业的QOS已达到其总GRES限制。
  • QOSGrpGRESMinutes — 作业的QOS已达到过去、现在和未来作业允许的总GRES分钟数的最大值。
  • QOSGrpGRESRunMinutes — 作业的QOS已达到当前运行作业允许的总GRES分钟数的最大值。
  • QOSGrpJobsLimit — 作业的QOS已达到允许的作业总数的最大值。
  • QOSGrpLicense — 作业的QOS已达到其总许可证限制。
  • QOSGrpLicenseMinutes — 作业的QOS已达到过去、现在和未来作业允许的总许可证分钟数的最大值。
  • QOSGrpLicenseRunMinutes — 作业的QOS已达到当前运行作业允许的总许可证分钟数的最大值。
  • QOSGrpMemLimit — 作业的QOS已达到其总内存限制。
  • QOSGrpMemoryMinutes — 作业的QOS已达到过去、现在和未来作业允许的总内存分钟数的最大值。
  • QOSGrpMemoryRunMinutes — 作业的QOS已达到当前运行作业允许的总内存分钟数的最大值。
  • QOSGrpNodeLimit — 作业的QOS已达到其总节点限制。
  • QOSGrpNodeMinutes — 作业的QOS已达到过去、现在和未来作业允许的总节点分钟数的最大值。
  • QOSGrpNodeRunMinutes — 作业的QOS已达到当前运行作业允许的总节点分钟数的最大值。
  • QOSGrpSubmitJobsLimit — 作业的QOS已达到在给定时间内可以运行或待处理的作业最大数。
  • QOSGrpUnknown — 作业的QOS已达到其未知通用资源的总限制。
  • QOSGrpUnknownMinutes — 作业的QOS已达到过去、现在和未来作业允许的总未知通用资源分钟数的最大值。
  • QOSGrpUnknownRunMinutes — 作业的QOS已达到当前运行作业允许的总未知通用资源分钟数的最大值。
  • QOSGrpWallLimit — 作业的QOS已达到运行作业请求的墙时间的总限制。
  • QOSJobLimit — 作业的QOS已达到其最大作业数量。
  • QOSMaxBBMinutesPerJob — 突发缓冲区请求超过每个作业允许使用的最大分钟数。
  • QOSMaxBBPerJob — 突发缓冲区请求超过每个作业允许使用的最大数量。
  • QOSMaxBBPerNode — 突发缓冲区请求超过作业分配中每个节点允许使用的最大数量。
  • QOSMaxBBPerUser — 突发缓冲区请求超过每个用户允许使用的最大数量。
  • QOSMaxBillingMinutesPerJob — 请求超过每个作业允许使用的最大分钟数,考虑到计费的情况。
  • QOSMaxBillingPerJob — 资源请求超过每个作业允许使用的最大计费限制。
  • QOSMaxBillingPerNode — 请求超过作业分配中每个节点允许使用的最大计费限制。
  • QOSMaxBillingPerUser — 请求超过每个用户允许使用的最大计费限制。
  • QOSMaxCpuMinutesPerJobLimit — CPU请求超过每个作业允许使用的最大分钟数。
  • QOSMaxCpuPerJobLimit — CPU请求超过每个作业允许使用的最大数量。
  • QOSMaxCpuPerNode — 请求超过作业分配中每个节点允许使用的最大CPU数量。
  • QOSMaxCpuPerUserLimit — CPU请求超过每个用户允许使用的最大数量。
  • QOSMaxEnergyMinutesPerJob — 能量请求超过每个作业允许使用的最大分钟数。
  • QOSMaxEnergyPerJob — 能量请求超过每个作业允许使用的最大数量。
  • QOSMaxEnergyPerNode — 请求超过作业分配中每个节点允许使用的最大能量数量。
  • QOSMaxEnergyPerUser — 请求超过每个用户允许使用的最大能量数量。
  • QOSMaxGRESMinutesPerJob — GRES请求超过每个作业允许使用的最大分钟数。
  • QOSMaxGRESPerJob — GRES请求超过每个作业允许使用的最大数量。
  • QOSMaxGRESPerNode — 请求超过作业分配中每个节点允许使用的最大GRES数量。
  • QOSMaxGRESPerUser — 请求超过每个用户允许使用的最大GRES数量。
  • QOSMaxJobsPerUserLimit — 每个用户在给定时间内允许运行的作业数量限制已达到。
  • QOSMaxLicenseMinutesPerJob — 许可证请求超过每个作业允许使用的最大分钟数。
  • QOSMaxLicensePerJob — 许可证请求超过每个作业允许使用的最大数量。
  • QOSMaxLicensePerUser — 许可证请求超过每个用户允许使用的最大数量。
  • QOSMaxMemoryMinutesPerJob — 内存请求超过每个作业允许使用的最大分钟数。
  • QOSMaxMemoryPerJob — 内存请求超过每个作业允许使用的最大数量。
  • QOSMaxMemoryPerNode — 请求超过作业分配中每个节点允许使用的最大内存数量。
  • QOSMaxMemoryPerUser — 请求超过每个用户允许使用的最大内存数量。
  • QOSMaxNodeMinutesPerJob — 请求的节点数量超过每个作业允许使用的最大分钟数。
  • QOSMaxNodePerJobLimit — 请求的节点数量超过每个作业允许使用的最大数量。
  • QOSMaxNodePerUserLimit — 请求的节点数量超过每个用户允许使用的最大数量。
  • QOSMaxSubmitJobPerUserLimit — 每个用户在给定时间内允许有运行或待处理作业的数量限制已达到。
  • QOSMaxUnknownMinutesPerJob — 请求的未知可追踪资源超过每个作业允许使用的最大分钟数。
  • QOSMaxUnknownPerJob — 请求的未知可追踪资源超过每个作业允许使用的最大数量。
  • QOSMaxUnknownPerNode — 请求超过作业分配中每个节点允许使用的最大未知可追踪资源数量。
  • QOSMaxUnknownPerUser — 请求超过每个用户允许使用的最大未知可追踪资源数量。
  • QOSMaxWallDurationPerJobLimit — 作业请求的墙时间限制已超过。
  • QOSMinBB — 突发缓冲区请求未达到每个作业要求的最小请求。
  • QOSMinBilling — 资源请求未达到每个作业允许使用的最小计费限制。
  • QOSMinCpuNotSatisfied — CPU请求未达到每个作业允许使用的最小值。
  • QOSMinEnergy — 能量请求未达到每个作业允许使用的最小值。
  • QOSMinGRES — GRES请求未达到每个作业允许使用的最小值。
  • QOSMinLicense — 许可证请求未达到每个作业允许使用的最小值。
  • QOSMinMemory — 内存请求未达到每个作业允许使用的最小值。
  • QOSMinNode — 请求的节点数量未达到每个作业允许使用的最小值。
  • QOSMinUnknown — 请求的未知可追踪资源未达到每个作业允许使用的最小值。
  • QOSNotAllowed — 作业请求的QOS不被请求的关联或分区允许。
  • QOSResourceLimit — 作业的QOS已达到某些资源限制。
  • QOSTimeLimit — 作业的QOS已达到其时间限制。
  • QOSUsageThreshold — 所需的QOS阈值已被突破。
  • ReqNodeNotAvail — 作业特别要求的某些节点当前不可用。该节点可能正在使用中、为其他作业保留、在高级预留中、关闭、排水或未响应。关闭、排水或未响应的节点将在作业的“原因”字段中标识为“不可用节点”。此类节点通常需要系统管理员的干预才能使其可用。
  • Reservation — 作业正在等待其高级预留可用。
  • ReservationDeleted — 作业请求的预留不再存在于系统中。
  • Resources — 作业请求的资源不可用(例如,已被其他作业使用)。
  • SchedDefer — 作业请求立即分配,但在slurm.conf中配置了SchedulerParameters=defer
  • SystemFailure — Slurm系统、文件系统、网络等的故障。
  • TimeLimit — 作业耗尽了其时间限制。

最后修改于 2025年3月12日