专题:kubernetes
共90篇相关文章

如何使用 GPU Operator 快速搭建 Kubernetes GPU 环境?
本文主要分享如何使用 GPU Operator 快速搭建 Kubernetes GPU 环境。 1. 概述 上一篇文章 GPU 使用指南:如何在裸机、Docker、K8s 等环境中使用 GPU 分享了裸机、Docker 环境以及 K8s 环...

如何通过vLLM实现大模型的高效推理?
本文主要分享如何使用 vLLM 实现大模型推理服务。 1. 概述 大模型推理有多种方式比如 最基础的 HuggingFace Transformers TGI vLLM Triton + TensorRT-LLM ......

如何从原理到实现全解K8s Device Plugin自定义资源支持?
本文主要分析 k8s 中的 device-plugin 机制工作原理,并通过实现一个简单的 device-plugin 来加深理解。 1. 背景 默认情况下,k8s 中的 Pod 只能申请 CPU 和 Memory 这两种资源,就像下面这样...

如何在K8S中通过nvidia device plugin源码Pod以使用GPU?
本文主要分析了在 K8s 中创建一个 Pod 并申请 GPU 资源,最终该 Pod 时怎么能够使用 GPU 的,具体的实现原理,以及 device plugin、nvidia-container-toolkit 相关源码分析。 1.概述 在...

如何通过NodeLocalDNS优化集群DNS性能与稳定性?
本文主要分享如何使用 NodeLocal DNSCache 来提升集群中的 DNS 性能以及可靠性,包括部署、使用配置以及原理分析,最终通过压测表明使用后带来了高达 50% 的性能提升。 1.背景 什么是 NodeLocalDNS Node...

如何通过Admission Webhook自动注入Pod的DNSConfig配置?
本文主要分享如何使用 基于 Admission Webhook 实现自动修改 Pod DNSConfig,使其优先使用 NodeLocalDNS 。 1.背景 上一篇部署好 NodeLocal DNSCache,但是还差了很重要的一步,配置...

NVIDIA Time Slicing的GPU共享方案,你真的完全搞懂了吗?
本文主要分享 GPU 共享方案,包括如何安装、配置以及使用,最后通过分析源码了 TImeSlicing 的具体实现。通过配置 TImeSlicing 可以实现 Pod 共享一块物理 GPU,以提升资源利用率。 1.为什么需要 GPU 共享、...

如何将 HAMi 开源 vGPU 方案实现 GPU 细粒度切分?
本文主要分享一个开源的 GPU 虚拟化方案:HAMi,包括如何安装、配置以及使用。 相比于上一篇分享的 TimeSlicing 方案,HAMi 除了 GPU 共享之外还可以实现 GPU core、memory 得限制,保证共享同一 GPU...

K8s v1.31新特性ImageVolume,能否将镜像直接挂载为Volume?
本文主要分享一个 K8s 1.31 增加的一个新 Feature:ImageVolume。允许直接将 OCI 镜像作为 Volume 进行挂载,加速 artifact 分发。 1.背景 Kubernetes 社区正在积极发展,以更好地支持未...

如何 hami-device-plugin-nvidia 实现为?
本文为开源的 vGPU 方案 HAMi 实现原理分析第一篇,主要分析 hami-device-plugin-nvidia 实现原理。 之前在 开源 vGPU 方案:HAMi,实现细粒度 GPU 切分 介绍了 HAMi 是什么,然后在开源 v...

如何通过Scheduler Extender在K8s中实现自定义调度逻辑?
本文主要分享如何通过 Scheduler Extender 扩展调度器从而实现自定义调度策略。 1. 为什么需要自定义调度逻辑 什么是所谓的调度? 所谓调度就是指给 Pod 对象的 spec.nodeName 赋值 待调度对象则是所有 sp...

如何深入理解 HAMi vGPU 中的 hami-webhook 工作机制?
上篇我们分析了 hami-device-plugin-nvidia,知道了 HAMi 的 NVIDIA device plugin 工作原理。 本文为 HAMi 原理分析的第二篇,分析 hami-scheduler 实现原理。 为了实现基于...

如何详细解析 HAMi vGPU 中 hami-scheduler 的工作流程机制?
上篇我们分析了 hami-webhook,该 Webhook 将申请了 vGPU 资源的 Pod 的调度器修改为 hami-scheduler,后续使用 hami-scheduler 进行调度。 本文为 HAMi 原理分析的第三篇,分析 h...

### HAMi vGPU 原理分析 Part 4:Spread在HAMi(Hardware Accelerated Multi-Instance)vGPU技术中,Spread是一个关键的概念,它涉及到如何将GPU资源分配给多个虚拟机(VM)。以下是对Sp
上篇我们分析了 hami-scheduler 工作流程,知道了 hami-webhook、hami-scheduler 是怎么配合工作的。 本文为 HAMi 原理分析的第四篇,分析 hami-scheduler 在调度时是如何选择节点的,即...

如何使用kubectl plugin neat进行高效集群管理?
前言 在使用 kubectl get $KIND -o yaml 查看 k8s 资源时,输出结果中包含大量由集群自动生成的元数据(如 managedFields、resourceVersion、uid 等)。这些信息在实际复用 yaml 清...
