Posts

像翻阅灵感墙一样浏览我的技术笔记和长期记录。

【论文笔记】Lucid论文阅读笔记
20 minutes

【论文笔记】Lucid论文阅读笔记

# Lucid: A Non-intrusive, Scalable and Interpretable Scheduler for Deep Learning Training Jobs ## 摘要 - 虽然最近的深度学习工作负载调度器表现出很好的性能,但在实际应用中很难部署它们,是由于 - 缺乏灵活的入侵方式、 - 过高的集成和维护成本 - 有限的可伸 …

1 minute

【Kubernetes】如何访问集群etcd

Kubernetes etcd

## 生成客户端证书 etcd 的证书包括了多种类型的证书,其中包括 `peer.crt` 和 `etcd-client.crt` 两种证书。`peer.crt` 证书是用于 etcd 集群中节点之间的身份验证和加密通信的,而 `etcd-client.crt` 则是用于客户端与 etcd 之间的身份验证和加密通信的。 如果你已经生成了 etcd 集群节点 …

【论文笔记】Singularity论文笔记
29 minutes

【论文笔记】Singularity论文笔记

# Singularity: Planet-Scale, Preemptive and Elastic Scheduling of AI Workloads **Abstract** - Singularity - 微软的全球分布式调度服务,高效和可靠地执行深度学习训练和推理工作负载 - 核心:是一个新颖的、**工作负载感知的调度器**,它可以透明地抢占和 …

【论文笔记】Gavel论文阅读笔记
10 minutes

【论文笔记】Gavel论文阅读笔记

# Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads ## Abstract - 背景 - 加速器,如 GPU、 TPU、 FPGA 和定制 ASIC 表现出跨模型架构的异构性能行为。 - 现有的针对加速器集群的调度器(用于在许多用户之间仲裁这些昂贵的培训 …

【博客】Hugo+Typora+PicGO+Github搭建个人博客
6 minutes

【博客】Hugo+Typora+PicGO+Github搭建个人博客

博客

# Hugo+Typora+PicGO+Github搭建个人博客 > - 我之前使用过typecho来搭建个人博客,由于是搭建在服务器上,我需要使用宝塔linux来完成各种配置,花花绿绿的各种环境让我对搭建博客多少有些累觉不爱 > > - 不过随着我阿里云服务器的到期,我决定趁机使用github托管我的个人网站,但是我不想麻烦区配置各种后端环境, 所以选择 …

【Obsidian】win+ipad+andriod利用坚果云三端同步
2 minutes

【Obsidian】win+ipad+andriod利用坚果云三端同步

Obsidian 笔记

# 利用坚果云实现Obsidian的多端同步 ## win端下载插件Remotely Save - 启用obsidian的第三方插件 - 浏览社区插件市场并安装Remotely Save - 安装完成后如图所示 ## 注册坚果云 - 进入账户信息->安全选项->第三方应用管理 - 点击添加应用,配置名称生成密码,名称自己设置,可以是Obsidian等等 - …

3 minutes

【Kubernetes】在k8s集群中挂载基于NFS的StorageClass

kubernetes

# 如何在k8s集群中挂载基于NFS的StorageClass ## 配置NFS服务器 ### 查看系统版本 CentOS 7.4 以后,支持 NFS v4.2 不需要 rpcbind 了,但是如果客户端只支持 NFC v3 则需要 rpcbind 这个服务 ### 安装服务端 > 只安装 nfs-utils 即可,rpcbind 属于它的依赖 ### 配 …

4 minutes

【Kubernetes】在k8s集群安装测试adaptdl

kubernetes

# 在k8s集群上部署测试Adaptdl ## 环境配置 - Centos Linux realease 7.9.2009 三台(GPU节点),CentOS Linux release 7.7.1908 一台(Master节点) - 内核:3.10.0-1062.18.1.el7.x86_64 - Docker-ce:18.09.7 - …

4 minutes

【Kubernetes】如何让kubernetes集群使用GPU

kubernetes GPU GPU 集群

## 在Kubernetes集群中使用GPU资源 在前文中, 我们搭建了k8s集群, 但是k8s原生不支持GPU资源, 需要使用各大GPU厂商开发的插件才能使用。 这一部分大家可以参考[NVIDIA/k8s-device-plugin: NVIDIA device plugin for Kubernetes …

【论文笔记】Harmony论文阅读笔记
7 minutes

【论文笔记】Harmony论文阅读笔记

论文 论文 Harmony GPU

# 基于深度学习的机器学习集群的任务放置 这是一篇发表在INFOCOM'2019上的论文, 特点是使用了强化学习进行任务放置。 ## Abstract - 背景 - 虽然作业之间的服务器共享提高了资源利用率,但位于ML 作业之间的干扰可能会导致性能显着下降。 - 现有的集群调度程序(例如,Mesos)在其作业布置中是忽视干扰的,导致资源效率不佳。 - 干扰 …

【论文笔记】Tiresias论文阅读笔记
9 minutes

【论文笔记】Tiresias论文阅读笔记

论文 GPU Tiresias

# Tiresias 论文阅读笔记 ## Abstract - 深度学习 (DL) 训练作业给现有的集群管理器带来了一些独特的挑战,例如 - 不可预测的训练时间 - 全有或全无的执行模型 - GPU 共享的不灵活性 - 我们对生产中的大型 GPU 集群的分析表明,现有的大数据调度程序会导致 - 较长的排队延迟 - 较低的整体性能 - 我们介绍了 …