📄️ NVIDIA Dynamo: 分布式AI推理的高效引擎
介绍NVIDIA Dynamo,一个分布式AI推理的高效引擎,分析其架构设计、组件功能及工作原理,了解如何通过PD分离、智能路由和分布式KV缓存管理等技术提升大模型推理性能
📄️ PD(Prefill&Decode)分离介绍
深入探讨LLM推理中的PD(Prefill&Decode)分离技术,分析其原理、指标、优势及实现方案,提升大模型推理性能和用户体验
📄️ 常见AI模型训练推理框架
对比分析常见的大模型训练和推理框架,包括TensorFlow、PyTorch、TensorRT-LLM、vLLM、ONNX Runtime、Triton等,详细介绍各框架的优缺点及其在训练和推理方面的支持情况