Gandiva

【论文笔记】Gandiva论文阅读笔记
21 minutes

Gandiva 论文阅读笔记

Abstract

  • Gandiva: 一个集群调度框架,使用特定领域知识,优化了GPU集群训练深度学习模型的延迟与效率

  • 深度学习job的特征

    • 1)反馈驱动的探索:
      • 一个用户经常运行一组作业(或 a multi-job)来获得特定任务的最佳结果
      • 并使用关于准确性的早期反馈来动态优先考虑或杀死一个作业子集
      • 同步发生的多个作业的早期反馈是至关重要的
    • 2)深度学习工作在资源使用方面的异构,这使得它很难实现最适合的先验。
    • 3)作业内可预测性:因为作业会重复执行叫做mini-batch的迭代
      • Gandiva利用这个特征解决了1)2)两个问题
      • 利用可预测性对GPU进行多个job间进行时分复用, 这提供了低延迟
      • 这种预测性还可以用于内省job性能并动态迁移到最合适的GPU上,提高了集群效率
  • 我们通过一个原型实现和微基准测试表明