李志轩 | Tweakzx

李志轩 | Tweakzx

搜索文章
Home
Post
Project

EasyScale

【论文笔记】EasyScale论文阅读笔记

【论文笔记】EasyScale论文阅读笔记

November 9, 2022

19 minutes

EasyScale 论文

EasyScale 论文阅读笔记

Abstract

分布式同步GPU训练通常被用于深度学习。
- 使用固定GPU的资源约束
  - 使得大规模的深度学习训练工作受到影响
  - 降低了集群的利用率
- 纳入资源弹性
  - 往往会引入模型精度的非确定性<—–缺乏隔离能力
本文介绍EasyScale，
- 这是一个弹性框架
  - 可以在异构GPU上扩展分布式训练
  - 同时产生确定性的深度学习模型
- 实现了弹性的精度一致的模型训练。
  - EasyScale严格遵循数据并行训练流程
  - 仔细追踪与精度相关的因素
  - 有效利用深度学习特性进行上下文切换
- 为了使异构GPU的计算能力达到饱和
  - EasyScale根据我们的作业内和作业间调度策略动态地分配工人
  - 最大限度地减少GPU的空闲时间
  - 并相应地提高综合作业的吞吐量。
- 实验
  - 部署在CompanyA的一个在线服务集群中
  - EasyScale为弹性深度学习训练作业提供动力，使其适时地利用空闲的GPU
  - 在不违反SLA的情况下将集群的整体利用率提高了62.1%

Introduction

弹性深度学习框架很少在行业中使用
Read more...