李志轩 | Tweakzx

李志轩 | Tweakzx

搜索文章
Home
Post
Project

Gandiva

【论文笔记】Gandiva论文阅读笔记

【论文笔记】Gandiva论文阅读笔记

November 8, 2022

21 minutes

Gandiva 论文阅读笔记

Abstract

Gandiva: 一个集群调度框架，使用特定领域知识，优化了GPU集群训练深度学习模型的延迟与效率
深度学习job的特征
- 1）反馈驱动的探索：
  - 一个用户经常运行一组作业(或 a multi-job)来获得特定任务的最佳结果
  - 并使用关于准确性的早期反馈来动态优先考虑或杀死一个作业子集
  - 同步发生的多个作业的早期反馈是至关重要的
- 2）深度学习工作在资源使用方面的异构，这使得它很难实现最适合的先验。
- 3）作业内可预测性：因为作业会重复执行叫做mini-batch的迭代
  - Gandiva利用这个特征解决了1）2）两个问题
  - 利用可预测性对GPU进行多个job间进行时分复用，这提供了低延迟
  - 这种预测性还可以用于内省job性能并动态迁移到最合适的GPU上，提高了集群效率
我们通过一个原型实现和微基准测试表明
Read more...