Tiresias

Tiresias 论文阅读笔记
Abstract
- 深度学习 (DL) 训练作业给现有的集群管理器带来了一些独特的挑战,例如
- 不可预测的训练时间
- 全有或全无的执行模型
- GPU 共享的不灵活性
- 我们对生产中的大型 GPU 集群的分析表明,现有的大数据调度程序会导致
- 较长的排队延迟
- 较低的整体性能
- 我们介绍了 Tiresias
- 这是一个为分布式 DL 训练作业量身定制的 GPU 集群管理器,它可以有效地安排和放置 DL 作业以减少它们的作业完成时间 (JCT)。
- 鉴于 DL 作业的执行时间通常是不可预测的,我们提出了两种调度算法——
- 离散化二维Gittins索引:基于部分信息
- 离散化二维 LAS: 与信息无关,旨在最小化平均 JCT
- 此外,我们描述了何时可以放宽合并放置约束,并提出了一种放置算法来利用这些观察结果而无需任何用户输入。
- 在具有 60 个 P100 GPU 的密歇根 ConFlux 集群上进行的实验和大规模跟踪驱动模拟表明,
- 与生产中使用的基于 Apache YARN 的资源管理器相比,Tiresias 将平均 JCT 提高了 5.5 倍。
- 更重要的是,Tiresias 的性能与假设完美知识的解决方案的性能相当。
Introduction
由于 DDL 训练的独特限制,我们观察到当前集群管理器设计中的两个主要限制。