Slurm 用户组会议 2023

2023 年秋季的 Slurm 用户组会议 (SLUG'23) 将于 2023 年 9 月 12-13 日在 杨百翰大学 举行。

注册

注册 包括周一晚上的欢迎招待会(更多细节将会公布)和两天的主要会议活动。所有餐食将在 2023 年 9 月 12 日星期二提供,周三 9 月 13 日提供早餐和午餐。请注意,校园内不提供咖啡,因此请确保在到达之前获取早上的咖啡因。

注册费用为:

  • 早鸟注册 $700,截止日期为 2023 年 6 月 16 日
  • 标准注册 $900,截止日期为 2023 年 7 月 28 日
  • 晚注册 $1,100,截止日期为 2023 年 9 月 1 日

旅行

犹他州普罗沃有一个机场 (PVU),与会者可以飞往该机场。考虑到 PVU 机场和航空公司的规模较小,我们建议与会者也考虑飞往盐湖城 (SLC)。

酒店

普罗沃北部万豪酒店 — 该地点提供免费班车,供与会者安排前往杨百翰大学的接送。该酒店位于城镇较安静的区域,后面有一条河流和步道。附近的购物中心步行可达,提供受欢迎的餐饮选择和邻里沃尔玛。

普罗沃万豪酒店及会议中心 — 该酒店位于普罗沃市中心,虽然没有班车,但步行到公交车站仅需四分之一英里,步行路线优美。公交车免费,每 8 分钟一班,前往校园的车程约为 12-15 分钟。市中心附近有许多商店、餐馆、公园、娱乐中心等。

普罗沃凯悦酒店 — 该酒店位于普罗沃万豪酒店及会议中心对面。住在这里可以让您位于普罗沃市中心,距离前往校园的公交车站仅四分之一英里。

日程安排

所有时间均为美国山区夏令时 (UTC-6)

SLUG'23 的主要场地是 杨百翰大学哈曼继续教育大楼 2258/2260 房间。停车位位于西侧停车场,请确保使用哈曼大楼为客人指定的停车位。午餐和小吃将在会议室旁边的空间提供。周一晚上的(可选)欢迎招待会和周二晚上的晚餐场地已包含在下面的议程中。

2023 年 9 月 11 日,星期一

时间 发言人 标题
18:00 - 20:00欢迎招待会
普罗沃万豪酒店及会议中心

2023 年 9 月 12 日,星期二

时间 发言人 标题
9:00 - 9:05Auble – SchedMD欢迎致辞
9:05 - 10:00David Jarvis – BYU主题演讲 — 通过开发遗传和基因组资源改善藜麦
10:00 - 10:30休息
10:30 - 11:00Jacobsen 和 Samuel – NERSC再也不要使用 Slurm HA:用 Kubernetes 解决所有问题
11:00 - 11:30Younts – GuardantGuardant Health 现场报告
11:30 - 12:00Hilton – SchedMD原生容器支持
12:00 - 13:00午餐
13:00 - 13:30Pratt 和 Feldman – CoreWeave在 CoreWeave 的无服务器 Kubernetes 架构上提供 Slurm 的强大功能
13:30 - 14:00Byun – LLSC使用 Slurm 优化多样化工作负载和资源使用
14:00 - 14:30Rini – SchedMDSlurm REST API 的现状
14:30 - 15:00休息
15:00 - 15:30Eyrich (Google) 和 Fryer (Recursion)利用 Google Cloud 构建灵活而强大的高性能计算基础
15:30 - 16:00Fazio – Dow需求驱动的集群弹性
16:00 - 17:00Booth – SchedMD现场笔记 7 – 如何充分利用 Slurm 并避免常见问题
18:30 - 20:30晚餐
The Skyroom
杨百翰大学厄内斯特·L·威尔金森学生中心,6楼

2023 年 9 月 13 日,星期三

时间 发言人 标题
9:00 - 9:30Markuske – SDSC利用 Slurm 加速基因组研究机器学习
9:30 - 10:00Nielsen – DTU使用 Slurm 节省电力
10:00 - 10:30休息
10:30 - 11:00Day – LLNL在 Slurm 中运行 Flux
11:00 - 11:30Marani – CINECACINECA 与 Slurm 的经验
11:30 - 12:00Christiansen – SchedMD步骤管理增强
12:00 - 13:00午餐
13:00 - 13:30Hafener – LANL使用数字双胞胎模拟集群调度行为
13:30 - 14:00Jezghani – Georgia TechPACE 现场报告
14:00 - 14:30Skjerven 和 Vaughn – AWS云中的构建模块:使用 Slurm 和 AWS Parallel Cluster 扩展 LEGO 工程
14:30 - 15:00休息
15:00 - 16:30Wickberg – SchedMDSlurm 23.02、23.11 及未来(路线图);开放论坛

摘要


云中的构建模块:使用 Slurm 和 AWS Parallel Cluster 扩展 LEGO 工程

Brian Skjerven 和 Matt Vaughn, AWS

AWS ParallelCluster 是一款工具,使研发客户及其 IT 管理员能够在 AWS 上设计和运营强大且弹性的 HPC 集群。在本次演讲中,我们将通过 LEGO 工程的视角介绍 ParallelCluster,LEGO 使用 ParallelCluster 和 Slurm 来扩展支持结构分析和材料科学研究的模拟。我们将讨论 LEGO 构建的整体混合 HPC 架构,特别关注 Slurm 如何扩展其现有集群。我们还将详细说明 LEGO 如何在这个混合环境中处理商业应用程序的软件许可证管理问题,所有这些都得益于 Slurm 的帮助。

CINECA 与 Slurm 的经验

Alessandro Marani, CINECA

意大利超级计算中心 CINECA 自 2016 年以来选择 Slurm 作为其首选资源调度器,在许多顶级 HPC 集群中实施,包括最新的 Leonardo,目前在 Top500 中排名第 4。在本报告中,我们将讨论如何利用各种功能来管理共享同一环境的不同社区的需求,以及我们实施的一些定制化以解决复杂情况。通过分享我们的成功和困难,我们也许能激励未来实施的新功能,这对我们和其他站点都非常有用。

在 CoreWeave 的无服务器 Kubernetes 架构上提供 Slurm 的强大功能

Navarre Pratt 和 Jacob Feldman, CoreWeave

CoreWeave 是一家专注于高性能 GPU 驱动工作负载的优质云服务提供商,涵盖 AI/ML、批处理和科学发现。CoreWeave 部署了大规模计算和一些全球最大的专用训练集群,所有这些都建立在 Kubernetes 之上。作为调度和管理 HPC 工作负载的首选解决方案,Slurm 是在此规模下利用计算资源的必备工具。在本次演讲中,我们将介绍即将开源的 Slurm on Kubernetes (SUNK) 解决方案,这是与 SchedMD 合作的项目,将 Kubernetes 容器化部署与 Slurm 结合在一起,提供终极计算平台。我们将讨论 SUNK 的开发过程、其功能范围,以及它在我们与 NVIDIA 完成的创纪录的 MLPerf 提交中所发挥的作用。

需求驱动的集群弹性

Mike Fazio, 道化学公司

弹性可扩展的集群可以在最小化作业提交到执行的时间方面发挥关键作用。很少有组织在本地拥有足够的资源来满足其超级计算机资源的峰值需求。利用基于消费的计算来补充现有资源,可以满足可变需求,同时保持经济实惠。即需高性能计算 (HPC) 服务提供了低门槛的进入方式,技能要求最低,但最终证明难以满足我们组织的需求。利用一套战略工具可以提供一个弹性可扩展的集群,为用户提供统一的入口,同时保持对专有数据的控制。本次演讲将涵盖道公司在混合本地/云 HPC 中的旅程,以便为研究人员提供无缝访问计算资源的能力。

Guardant Health 现场报告

Alex Younts, Guardant Health

Guardant Health 是一家总部位于加利福尼亚州帕洛阿尔托的生命科学公司,我们努力将我们的产品带给全球每一个人,以抗击癌症。我们的专有生物信息学管道最初是在 Sun Grid Engine 上开发的。在与 SchedMD 成功的概念验证合作后,我们开始向 Slurm 转型。我们的目标是通过使用我们本地集群和云的联合体来实现随处计算的能力。我们将展示我们 Slurm 架构的有趣细节、迄今为止的结果,以及我们如何向用户和开发人员推广 Slurm。

使用数字双胞胎模拟集群调度行为

Vivian Hafener, 洛斯阿拉莫斯国家实验室

准确模拟对系统调度器配置更改对系统性能影响的能力是指导 HPC 系统管理决策、提供改善系统性能的建议以及在部署之前验证拟议更改对系统的影响的能力。本次演讲介绍了一套基于修改版开源 BatSim 模拟平台的工具。这些工具可用于评估系统的调度性能,检查调度策略变化对不同类型作业的影响,以及评估计划维护或其他预留对系统作业流的影响。这些工具使用由历史 Slurm 日志生成的工作负载文件来评估对物理集群的“数字双胞胎”的影响,具有相同的集群配置、作业细节和调度策略。这些工具正在用于指导 LANL 的生产 HPC 操作,并处于积极开发和增强中。本次演讲将通过丰富的插图展示迄今为止开发的工具和技术的广度和适用性。本次演讲的目标之一是征求我们可以纳入这一开源工作的有趣问题。

优化多样化工作负载和系统资源使用

Chansup Byun, 林肯实验室超级计算中心 (LLSC)

在林肯实验室超级计算中心 (LLSC),我们有非常多样化的工作负载,从各种机器学习和人工智能应用到传统的高性能计算应用程序和其他模拟代码,再到高级数据库服务、动态 Web 服务,以及在大型集群系统上运行的按需 Jupyter Notebook 服务。我们一直在使用 Slurm 有效地启用和扩展这些多样化的工作负载,并继续利用先进的 Slurm 功能更有效地使用系统资源。最近,我们引入了整个节点调度方法,以便在一个节点上只能调度一个用户的作业。该调度方法有许多好处,我们将在本次演讲中讨论详细信息。Spot 作业支持是另一个在选定 LLSC 系统上实施的功能,旨在提高系统资源使用,同时尽量减少对正常作业的影响。Spot 作业是一种提高系统利用率的方式,同时为用户提供额外的容量以满足其计算需求。我们发现 Slurm 在抢占 Spot 作业时的调度性能存在一些问题,并将在演讲中讨论我们如何显著改善调度性能。

在 Slurm 中运行 Flux

Ryan Day, 劳伦斯利弗莫尔国家实验室 (LLNL)

Flux 是一款新颖的开源资源管理包,旨在支持现代异构 HPC 系统上的复杂工作流。其分层设计允许用户优雅地细分其分配并协调这些子分配中的作业调度。Flux 也很容易在其他资源管理器的分配中运行。在本次演讲中,我将描述 Flux 和一些示例工作流,然后演示如何在 Slurm 管理的集群中的分配内启动和运行 Flux 实例。

再也不要使用 Slurm HA:用 Kubernetes 解决所有问题

Douglas Jacobsen 和 Chris Samuel, 国家能源研究科学计算中心 (NERSC)

作为 Perlmutter CrayEX 系统部署的一部分,NERSC 在系统上的 Kubernetes 服务集群上开发了其 Slurm 控制器和数据库的生产部署。这提高了 Slurm 守护进程和支持基础设施的管理可靠性和流程改进,尤其是在 Slurm 数据库周围,但也产生了我们与 Slurm 一般交互的新选项。通过将各种组件构建为“微”服务,HA 现在由 Kubernetes 直接管理,常见的数据库操作由知名的 MariaDB 操作员管理,整体可靠性比以往更高。这为未来提供了新的集成选项,模糊了系统和云服务之间的界限。

PACE 现场报告

Aaron Jezghani, PACE, 乔治亚理工学院

在 2023 财年,乔治亚理工学院的先进计算环境合作伙伴关系 (PACE) 对大约 2000 台服务器进行了分阶段的 Slurm 调度器迁移,涉及 4 个集群。每个集群都面临独特的挑战,包括通过作业会计进行成本回收、满足广泛课程的教学需求,以及需要解决的受保护数据的联邦法规。通过将每个新需求视为对先前工作的增量更改,并提供广泛的高级培训和测试机会,PACE 成功迁移了 3 个集群,并正在完成最后一个。我们将介绍迁移到 Slurm 的动机、迁移过程中遇到的挑战以及迁移后的经验。

现场笔记 7 — 如何充分利用 Slurm 并避免常见问题

Jason Booth, SchedMD

来自 SchedMD 支持总监的最佳实践和配置建议。

步骤管理增强

Brian Christiansen, SchedMD

原生容器支持

Scott Hilton 和 Nate Rini, SchedMD

Slurm REST API 的现状

Nate Rini, SchedMD

Slurm 23.02、23.11 及未来(路线图)

Tim Wickberg, SchedMD

本次演讲将重点介绍即将发布的 Slurm 23.11 版本,以及对后续 Slurm 24.08 版本及更远的计划的预览。还将留出额外时间进行社区讨论和与主要 Slurm 开发人员的问答环节。

利用 Slurm 加速基因组研究机器学习

William Markuske, SDSC

本次演讲将讨论圣地亚哥超级计算中心 (SDSC) 的研究数据服务 (RDS) 团队如何使用 Slurm 支持基因组研究人员开发机器学习技术,以进行全基因组关联研究和计算网络生物学。基因组机器学习需要跨异构硬件进行高吞吐量计算,以满足新模型开发和训练的工作流需求。演讲将介绍一个专门构建的国家网络生物学资源 (NRNB) 计算集群的配置。NRNB 集群由异构节点配置组成,包括标准计算节点、高内存节点和不同的 GPU 节点,以支持大约 50 名基因组研究人员。Slurm 用于管理集群上的资源,以通过为研究人员的特定需求调整环境来缩短发现时间。演讲将讨论 Slurm 作业吞吐量调优、异构资源分配和公平使用、存储分配,以及通过 Slurm 部署开发 Jupyter 环境。此外,演讲将演示 Slurm 如何用于自动化序列数据的摄取和处理,以支持计算基因组学工作。

使用 Slurm 节省电力

Ole Holm Nielsen, 丹麦技术大学 (DTU)

自 2022 年中以来,世界某些地区的能源成本大幅上升,HPC 中心越来越关注节省电费。Slurm 节能指南记录了一种方法,可以自动关闭和开启节点,无论是在本地还是在云中。执行电源操作的脚本由各个站点自行决定。我们报告了本地节点节能的经验,并展示了基于 IPMI 电源操作的脚本。在 Slurm 22.05 及之前版本中发现了一些挑战,我们讨论了在 23.02 中提供的解决方案和解决方法。还将讨论在频繁电源循环下的硬件稳定性。

最后修改于 2023 年 9 月 12 日