LLM SYSTEMS
最近在字节跳动从事大模型系统的调度与编排开发,关注训练/推理场景下的资源调度、工作负载编排、系统稳定性与自动化运维。
Tweakzx
李志轩
过往工作聚焦 Kubernetes 上的异构算力管理、GPU/NPU 虚拟化、Device Plugin、Volcano 与 LLM 推理负载编排。
AI INFRA
我是李志轩,云原生 AI 基础设施工程师。这个站点整理我的技术博客、代表项目、简历经历和工程复盘:既展示做过什么,也沉淀我如何理解复杂系统。

主要技术方向

大模型系统调度与编排

关注 LLM 训练/推理场景下的资源调度、工作负载编排、系统稳定性和自动化运维能力。

Kubernetes 与云原生

熟悉 Device Plugin、Scheduler、CRD、Controller、Docker、Helm 等云原生基础设施能力。

GPU/NPU 资源管理

围绕昇腾、NVIDIA 等异构算力,参与资源注册、健康探针、网络信息采集、可信计算域和虚拟化管理。

AI 基础设施

实践方向包括 GPU/NPU 虚拟化、Volcano、kthena、LLM 推理负载编排与生产集群适配。

工程实现

主要使用 Go 和 Python,偏好把系统问题拆成清晰的控制面、数据面和自动化运维能力。

技术写作

长期记录建站、Kubernetes、Go、分布式系统、CUDA、论文阅读和工程踩坑。

工作经历

字节跳动 logo 字节跳动
2026/05 - 现在 大模型系统调度与编排开发

目前在字节跳动从事大模型系统的调度与编排开发。工作重点放在大模型训练与推理场景下的资源调度、工作负载编排、系统稳定性和自动化运维能力建设。

华为 logo 华为
2024/07 - 2026/05 云计算工程师,容器与 Serverless 域 / 基础设施产品线

在华为期间,我主要围绕云原生 AI 基础设施展开工作,方向包括异构算力管理、GPU/NPU 虚拟化、推理负载编排和生产集群适配。

参与和负责的主要项目包括异构资源管理 Device Plugin、vNPU 虚拟化管理组件、kthena 推理负载管理、agentcube Sandbox SDK 和 NPU 虚拟化预研。

百度 logo 百度
2023/02 - 2023/06 AI 平台研发实习生,BML / AI 平台部

在百度 AI 平台部实习期间,我参与 BML 可视化 AI 工作流平台研发,主要方向是扩展工作流组件能力。

工作内容集中在模型算子组件和分支节点组件,包括数据源与执行方式适配,以及基于条件表达式的工作流路由能力。

教育经历

中国科学院 计算技术研究所 logo 中国科学院 计算技术研究所
2021/09 - 2024/07 硕士,计算机软件与理论

推荐免试入学。硕士阶段的研究兴趣集中在基于 Kubernetes 的深度学习 GPU 集群、GPU 虚拟化与调度。

这段经历也奠定了我后来持续关注云原生 AI 基础设施和异构资源调度的技术主线。

西安交通大学 logo 西安交通大学
2017/08 - 2021/07 学士,软件工程

本科阶段学习软件工程,GPA 3.75,排名 10/108。

曾获西安交通大学优秀毕业生、校二等奖学金 2 次、三等奖学金 1 次、优秀学生 3 次,并推荐免试攻读硕士。

GitHub 项目

agentflow

Tweakzx/agentflow

面向编码 Agent 的阶段化控制与项目级任务治理插件。

把多仓库/多阶段开发过程拆成可追踪的任务流,适合展示 AI 工具链、产品思考和工程实现能力。

AI Agent Workflow Developer Tool
View on GitHub

kthena

Tweakzx/kthena

Kubernetes-native AI serving platform for scalable model serving.

围绕模型服务、推理负载管理、控制器逻辑和云原生 AI 基础设施展开探索。

Kubernetes Model Serving AI Infra
View on GitHub

k8s-wizard

Tweakzx/k8s-wizard

Kubernetes 相关工具与实验集合。

用于沉淀 Kubernetes 工具链、集群操作和工程自动化方面的实践。

Kubernetes Tooling Automation
View on GitHub

最近文章

记录技术探索、论文阅读和工程实践。

3 minutes

【Kubernetes】部署gaiaGPU(vCUDA)

kubernetes 容器 k8s gaiagpu

# 部署GaiaGPU ## 前置工作 - 配置好GPU环境 - 配置好k8s集群环境 ## gpu-admission ### 部署deployment 创建文件 ### 创建自定义调度文件 创建文件 ### 修改默认调度器 修改后wq保存, 保存后自动生效 ## gpu-manager ### 给gpu节点打标签 ### 部署deamonset 创建文 …

【论文笔记】HUVM论文阅读笔记
5 minutes

【论文笔记】HUVM论文阅读笔记

# Memory Harvesting in Multi-GPU Systems with Hierarchical Unified Virtual Memory **摘要** - 随着对 GPU 需求的不断增长,大多数组织允许用户共享多 GPU 服务器。 - 然而,我们观察到,当合并显示高度不同的资源需求的各种工作负载时,跨 GPU 的内存空间没有得到充 …

【论文笔记】DeepUM论文阅读笔记
5 minutes

【论文笔记】DeepUM论文阅读笔记

# DeepUM: Tensor Migration and Prefetching in Unified Memory **摘要** - 深层神经网络(DNN)正在继续变得越来越广泛和深入。因此,它需要大量的 GPU 内存和计算能力。 - 本文提出了一个利用 CUDA 统一存储器(UM)实现 GPU 内存超订的 DeepUM 框架。 - UM 允许使用页 …