EasyScale

EasyScale 论文阅读笔记
Abstract
- 分布式同步GPU训练通常被用于深度学习。
- 使用固定GPU的资源约束
- 使得大规模的深度学习训练工作受到影响
- 降低了集群的利用率
- 纳入资源弹性
- 往往会引入模型精度的非确定性<—–缺乏隔离能力
- 使用固定GPU的资源约束
- 本文介绍EasyScale,
- 这是一个弹性框架
- 可以在异构GPU上扩展分布式训练
- 同时产生确定性的深度学习模型
- 实现了弹性的精度一致的模型训练。
- EasyScale严格遵循数据并行训练流程
- 仔细追踪与精度相关的因素
- 有效利用深度学习特性进行上下文切换
- 为了使异构GPU的计算能力达到饱和
- EasyScale根据我们的作业内和作业间调度策略动态地分配工人
- 最大限度地减少GPU的空闲时间
- 并相应地提高综合作业的吞吐量。
- 实验
- 部署在CompanyA的一个在线服务集群中
- EasyScale为弹性深度学习训练作业提供动力,使其适时地利用空闲的GPU
- 在不违反SLA的情况下将集群的整体利用率提高了62.1%
- 这是一个弹性框架
Introduction
弹性深度学习框架很少在行业中使用