李志轩 | Tweakzx

LLM SYSTEMS

最近在字节跳动从事大模型系统的调度与编排开发，关注训练/推理场景下的资源调度、工作负载编排、系统稳定性与自动化运维。

李志轩

过往工作聚焦 Kubernetes 上的异构算力管理、GPU/NPU 虚拟化、Device Plugin、Volcano 与 LLM 推理负载编排。

AI INFRA

我是李志轩，云原生 AI 基础设施工程师。这个站点整理我的技术博客、代表项目、简历经历和工程复盘：既展示做过什么，也沉淀我如何理解复杂系统。

主要技术方向

大模型系统调度与编排

关注 LLM 训练/推理场景下的资源调度、工作负载编排、系统稳定性和自动化运维能力。

Kubernetes 与云原生

熟悉 Device Plugin、Scheduler、CRD、Controller、Docker、Helm 等云原生基础设施能力。

GPU/NPU 资源管理

围绕昇腾、NVIDIA 等异构算力，参与资源注册、健康探针、网络信息采集、可信计算域和虚拟化管理。

AI 基础设施

实践方向包括 GPU/NPU 虚拟化、Volcano、kthena、LLM 推理负载编排与生产集群适配。

工程实现

主要使用 Go 和 Python，偏好把系统问题拆成清晰的控制面、数据面和自动化运维能力。

技术写作

长期记录建站、Kubernetes、Go、分布式系统、CUDA、论文阅读和工程踩坑。

工作经历

字节跳动

2026/05 - 现在大模型系统调度与编排开发

目前在字节跳动从事大模型系统的调度与编排开发。工作重点放在大模型训练与推理场景下的资源调度、工作负载编排、系统稳定性和自动化运维能力建设。

华为

2024/07 - 2026/05 云计算工程师，容器与 Serverless 域 / 基础设施产品线

在华为期间，我主要围绕云原生 AI 基础设施展开工作，方向包括异构算力管理、GPU/NPU 虚拟化、推理负载编排和生产集群适配。

参与和负责的主要项目包括异构资源管理 Device Plugin、vNPU 虚拟化管理组件、kthena 推理负载管理、agentcube Sandbox SDK 和 NPU 虚拟化预研。

百度

2023/02 - 2023/06 AI 平台研发实习生，BML / AI 平台部

在百度 AI 平台部实习期间，我参与 BML 可视化 AI 工作流平台研发，主要方向是扩展工作流组件能力。

工作内容集中在模型算子组件和分支节点组件，包括数据源与执行方式适配，以及基于条件表达式的工作流路由能力。

教育经历

中国科学院计算技术研究所

2021/09 - 2024/07 硕士，计算机软件与理论

推荐免试入学。硕士阶段的研究兴趣集中在基于 Kubernetes 的深度学习 GPU 集群、GPU 虚拟化与调度。

这段经历也奠定了我后来持续关注云原生 AI 基础设施和异构资源调度的技术主线。

西安交通大学

2017/08 - 2021/07 学士，软件工程

本科阶段学习软件工程，GPA 3.75，排名 10/108。

曾获西安交通大学优秀毕业生、校二等奖学金 2 次、三等奖学金 1 次、优秀学生 3 次，并推荐免试攻读硕士。

GitHub 项目

agentflow

Tweakzx/agentflow

面向编码 Agent 的阶段化控制与项目级任务治理插件。

把多仓库/多阶段开发过程拆成可追踪的任务流，适合展示 AI 工具链、产品思考和工程实现能力。

AI Agent Workflow Developer Tool

View on GitHub

kthena

Tweakzx/kthena

Kubernetes-native AI serving platform for scalable model serving.

围绕模型服务、推理负载管理、控制器逻辑和云原生 AI 基础设施展开探索。

Kubernetes Model Serving AI Infra

View on GitHub

k8s-wizard

Tweakzx/k8s-wizard

Kubernetes 相关工具与实验集合。

用于沉淀 Kubernetes 工具链、集群操作和工程自动化方面的实践。

Kubernetes Tooling Automation

View on GitHub

More projects

【Kubernetes】部署gaiaGPU（vCUDA）

kubernetes 容器 k8s gaiagpu

# 部署GaiaGPU ## 前置工作 - 配置好GPU环境 - 配置好k8s集群环境 ## gpu-admission ### 部署deployment 创建文件 ### 创建自定义调度文件创建文件 ### 修改默认调度器修改后wq保存，保存后自动生效 ## gpu-manager ### 给gpu节点打标签 ### 部署deamonset 创建文 …

June 25, 2023

5 minutes

【论文笔记】HUVM论文阅读笔记

# Memory Harvesting in Multi-GPU Systems with Hierarchical Unified Virtual Memory **摘要** - 随着对 GPU 需求的不断增长，大多数组织允许用户共享多 GPU 服务器。 - 然而，我们观察到，当合并显示高度不同的资源需求的各种工作负载时，跨 GPU 的内存空间没有得到充 …

June 18, 2023

5 minutes

【论文笔记】DeepUM论文阅读笔记

# DeepUM: Tensor Migration and Prefetching in Unified Memory **摘要** - 深层神经网络(DNN)正在继续变得越来越广泛和深入。因此，它需要大量的 GPU 内存和计算能力。 - 本文提出了一个利用 CUDA 统一存储器(UM)实现 GPU 内存超订的 DeepUM 框架。 - UM 允许使用页 …

查看更多文章

李志轩 | Tweakzx

主要技术方向

大模型系统调度与编排

Kubernetes 与云原生

GPU/NPU 资源管理

AI 基础设施

工程实现

技术写作

工作经历

教育经历

GitHub 项目

agentflow

kthena

k8s-wizard

最近文章

【Kubernetes】部署gaiaGPU（vCUDA）

【论文笔记】HUVM论文阅读笔记

【论文笔记】DeepUM论文阅读笔记