推理服务 | John's Blog

📄️ 在线推理与离线批量推理

本文深入介绍AI模型推理业务场景中的离线批量推理技术。首先阐述在线推理的概念及其面临的资源利用率低、成本高等挑战，进而引出离线批量推理的定义与核心特点。文章详细分析了离线批量推理在内容审核、用户画像更新、数据标注、金融风控、医疗影像分析等7大应用场景，并从响应延迟、吞吐量、资源调度等14个维度系统对比在线推理与离线批量推理的区别。最后介绍实现离线批量推理的推理框架（如Triton、vLLM）、批处理编排工具（如Spark、Ray）及最佳实践，帮助读者全面理解并应用离线批量推理技术

📄️ PD(Prefill&Decode)分离

深入探讨LLM推理中的PD(Prefill&Decode)分离技术，分析其原理、指标、优势及实现方案，提升大模型推理性能和用户体验

📄️ NVIDIA Dynamo: 分布式AI推理的高效引擎

介绍NVIDIA Dynamo，一个分布式AI推理的高效引擎，分析其架构设计、组件功能及工作原理，了解如何通过PD分离、智能路由和分布式KV缓存管理等技术提升大模型推理性能

📄️ 单机多卡部署，GPU之间无法使用NVLINK通信问题排查

详细分析和解决单机多卡部署中GPU之间无法使用NVLINK通信的问题。以PD分离技术为例，深入探讨GPU资源隔离机制、容器特权模式配置、GPU拓扑结构发现等关键技术，提供可供参考的解决方案。