Tiresias

【论文笔记】Tiresias论文阅读笔记

December 27, 2022

9 minutes

深度学习 (DL) 训练作业给现有的集群管理器带来了一些独特的挑战，例如
- 不可预测的训练时间
- 全有或全无的执行模型
- GPU 共享的不灵活性
我们对生产中的大型 GPU 集群的分析表明，现有的大数据调度程序会导致
- 较长的排队延迟
- 较低的整体性能
我们介绍了 Tiresias
- 这是一个为分布式 DL 训练作业量身定制的 GPU 集群管理器，它可以有效地安排和放置 DL 作业以减少它们的作业完成时间 (JCT)。
- 鉴于 DL 作业的执行时间通常是不可预测的，我们提出了两种调度算法——
  - 离散化二维Gittins索引：基于部分信息
  - 离散化二维 LAS：与信息无关，旨在最小化平均 JCT
- 此外，我们描述了何时可以放宽合并放置约束，并提出了一种放置算法来利用这些观察结果而无需任何用户输入。
在具有 60 个 P100 GPU 的密歇根 ConFlux 集群上进行的实验和大规模跟踪驱动模拟表明，
- 与生产中使用的基于 Apache YARN 的资源管理器相比，Tiresias 将平均 JCT 提高了 5.5 倍。
- 更重要的是，Tiresias 的性能与假设完美知识的解决方案的性能相当。

由于 DDL 训练的独特限制，我们观察到当前集群管理器设计中的两个主要限制。