EasyScale

【论文笔记】EasyScale论文阅读笔记
19 minutes

EasyScale 论文阅读笔记

Abstract

  • 分布式同步GPU训练通常被用于深度学习。
    • 使用固定GPU的资源约束
      • 使得大规模的深度学习训练工作受到影响
      • 降低了集群的利用率
    • 纳入资源弹性
      • 往往会引入模型精度的非确定性<—–缺乏隔离能力
  • 本文介绍EasyScale,
    • 这是一个弹性框架
      • 可以在异构GPU上扩展分布式训练
      • 同时产生确定性的深度学习模型
    • 实现了弹性的精度一致的模型训练。
      • EasyScale严格遵循数据并行训练流程
      • 仔细追踪与精度相关的因素
      • 有效利用深度学习特性进行上下文切换
    • 为了使异构GPU的计算能力达到饱和
      • EasyScale根据我们的作业内和作业间调度策略动态地分配工人
      • 最大限度地减少GPU的空闲时间
      • 并相应地提高综合作业的吞吐量。
    • 实验
      • 部署在CompanyA的一个在线服务集群中
      • EasyScale为弹性深度学习训练作业提供动力,使其适时地利用空闲的GPU
      • 在不违反SLA的情况下将集群的整体利用率提高了62.1%

Introduction

  • 弹性深度学习框架很少在行业中使用