基础架构 | John's Blog

🗃️ vGPU

5 items

🗃️ RDMA

3 items

🗃️ NVIDIA

10 items

🗃️ 算力调度

5 items

📄️ LLMOps介绍

全面介绍LLMOps技术体系，包括LLMOps的背景与定义、与MLOps的核心区别、关键功能特性、与DevOps的融合实践以及未来发展趋势，为构建企业级AI大模型开发运维平台提供技术指导

📄️ 常见智算加速卡汇总

全面汇总NVIDIA、华为昇腾、寒武纪、海光等主流智算加速卡的技术规格、性能参数和市场价格，为AI基础设施建设提供参考依据。

📄️ AI基础架构中常见业务场景痛点

梳理AI模型训练推理中的常见业务场景，包括资源批量调度、碎片化处理、多租户隔离、弹性资源管理、优先级调度、异构资源调度、训推动态平衡、分布式通信优化、成本分析和容错恢复等核心问题及解决方案

📄️ CPU&GPU架构差异及AI场景中的应用

深入解析CPU和GPU在架构设计上的本质区别，阐述为什么AI模型训练和推理需要大量使用GPU而非CPU。从缓存结构、控制单元、运算核心三个维度对比两者设计理念：CPU追求低延迟和复杂逻辑处理，GPU追求高吞吐量和大规模数据并行。详解异构计算模式下CPU与GPU的协同工作机制，为理解AI基础设施提供硬件架构基础。