Gandiva

Gandiva 论文阅读笔记
Abstract
Gandiva: 一个集群调度框架,使用特定领域知识,优化了GPU集群训练深度学习模型的延迟与效率
深度学习job的特征
- 1)反馈驱动的探索:
- 一个用户经常运行一组作业(或 a multi-job)来获得特定任务的最佳结果
- 并使用关于准确性的早期反馈来动态优先考虑或杀死一个作业子集
- 同步发生的多个作业的早期反馈是至关重要的
- 2)深度学习工作在资源使用方面的异构,这使得它很难实现最适合的先验。
- 3)作业内可预测性:因为作业会重复执行叫做mini-batch的迭代
- Gandiva利用这个特征解决了1)2)两个问题
- 利用可预测性对GPU进行多个job间进行时分复用, 这提供了低延迟
- 这种预测性还可以用于内省job性能并动态迁移到最合适的GPU上,提高了集群效率
- 1)反馈驱动的探索:
我们通过一个原型实现和微基准测试表明