Posts

像翻阅灵感墙一样浏览我的技术笔记和长期记录。

3 minutes

【Kubernetes】部署gaiaGPU(vCUDA)

kubernetes 容器 k8s gaiagpu

# 部署GaiaGPU ## 前置工作 - 配置好GPU环境 - 配置好k8s集群环境 ## gpu-admission ### 部署deployment 创建文件 ### 创建自定义调度文件 创建文件 ### 修改默认调度器 修改后wq保存, 保存后自动生效 ## gpu-manager ### 给gpu节点打标签 ### 部署deamonset 创建文 …

【论文笔记】HUVM论文阅读笔记
5 minutes

【论文笔记】HUVM论文阅读笔记

# Memory Harvesting in Multi-GPU Systems with Hierarchical Unified Virtual Memory **摘要** - 随着对 GPU 需求的不断增长,大多数组织允许用户共享多 GPU 服务器。 - 然而,我们观察到,当合并显示高度不同的资源需求的各种工作负载时,跨 GPU 的内存空间没有得到充 …

【论文笔记】DeepUM论文阅读笔记
5 minutes

【论文笔记】DeepUM论文阅读笔记

# DeepUM: Tensor Migration and Prefetching in Unified Memory **摘要** - 深层神经网络(DNN)正在继续变得越来越广泛和深入。因此,它需要大量的 GPU 内存和计算能力。 - 本文提出了一个利用 CUDA 统一存储器(UM)实现 GPU 内存超订的 DeepUM 框架。 - UM 允许使用页 …

7 minutes

【论文笔记】Zico论文阅读笔记

# Zico: Efficient GPU Memory Sharing for Concurrent DNN Training **摘要** - 最近的一些工作提出了跨多个并发 DNN 培训作业共享 GPU 资源的解决方案 - 但是没有一个解决这种作业共处引入的快速增长的内存占用问题 - 这极大地限制了共享 GPU 资源的有效性 - Zico,第一个 …

【论文笔记】gshare论文笔记
16 minutes

【论文笔记】gshare论文笔记

# gShare: A centralized GPU memory management framework to enable GPU memory sharing for containers **摘要** - 现有的容器软件并不关心每个容器如何分配 GPU 内存。 - 因此,如果某个容器消耗了大部分 GPU 内存,其他容器可能因为内存不足而无法运行 …

【论文笔记】HiveD论文阅读笔记
11 minutes

【论文笔记】HiveD论文阅读笔记

# HiveD: Sharing a GPU Cluster for Deep Learning with Guarantees **摘要** - 生产多租户集群中存在严重的共享异常现象 - 在这种情况下,一些租户中的作业所经历的排队延迟比它们在拥有其分配的 GPU 的私有集群中所经历的排队延迟更为严重。 - 这是因为租户使用配额(GPU 的数量)来保留资 …

14 minutes

【论文笔记】MLsys Paper List

# **A reading list for machine learning systems** ## **Frameworks** - **[VLDB '20] PyTorch Distributed: Experiences on Accelerating Data Parallel Training** - **[NeurIPS '19] …

【论文笔记】Shockwave论文阅读笔记
6 minutes

【论文笔记】Shockwave论文阅读笔记

# Shockwave: Fair and Efficient Cluster Scheduling for Dynamic Adaptation in Machine Learning **摘要** - 动态自适应已经成为加速分布式机器学习(ML)训练的关键技术 - 最近的研究表明,动态调整模型结构(例如,彩票假设[16])或超参数(例如,批量大小 …

【论文笔记】Horus论文笔记
9 minutes

【论文笔记】Horus论文笔记

**摘要** - 背景 - 为了加速深度学习(Deep Learning,DL)模型的培训,使用配备 GPU 等硬件加速器的机器集群来减少执行时间。 - 需要最先进的资源管理器来提高 GPU 的利用率和最大化吞吐量。 - 虽然在同一 GPU 上共享 DL 作业已被证明是有效的,但这可能会引起干扰,从而导致速度减慢。 - Horus: 一个用于 DL 系统的 …

【论文笔记】TGS论文阅读笔记
20 minutes

【论文笔记】TGS论文阅读笔记

论文 antman gpu

# Transparent GPU Sharing in Container Clouds for Deep Learning Workloads **摘要** - 容器广泛用于数据中心中的资源管理。 - 支持容器云中的深度学习(DL)训练的一个常见实践是静态地将 GPU 完全绑定到容器上。 - 由于生产中 DL 作业的资源需求多种多样,大量的 GPU 未 …

【论文笔记】Aryl论文阅读笔记
5 minutes

【论文笔记】Aryl论文阅读笔记

# Aryl: An Elastic Cluster Scheduler for Deep Learning ## 摘要 - 训练和推理中的问题: - 当流量负载较低时,推理集群的 GPU 利用率较低 - 由于缺乏资源,训练作业往往需要较长的排队时间 - 我们引入了 Aryl,一个新的集群调度器来解决这些问题。 - Aryl 引入了容量贷款,将空闲推理 …

4 minutes

【Kubernetes】ubuntu脚本安装k8s集群

## 安装k8s-1.18.9版本的脚本 - 下载之后最好修改 - KUBE_VERSION="1.18.9" 以安装自己想要的版本 - MASTER1_IP= 自己的master IP - NODE1_IP= 集群的节点IP - 可以自定义修改, 但是也可以不动 - POD_NETWORK="10.244.0.0/16" - …