AI技术 | John's Blog

🗃️ NVIDIA

7 items

🗃️ 分布式推理

3 items

🗃️ 算力资源调度

1 item

📄️ NFD&GFD

本文详细介绍Kubernetes中的Node Feature Discovery (NFD)和GPU Feature Discovery (GFD)技术，包括其基本概念、背景、作用、实现原理及支持的标签列表，帮助用户更好地理解和使用这些技术进行高效的资源调度。

📄️ 常见智算加速卡汇总

全面汇总NVIDIA、华为昇腾、寒武纪、海光等主流智算加速卡的技术规格、性能参数和市场价格，为AI基础设施建设提供参考依据。

📄️ RDMA技术架构深度解析

全面深入地介绍RDMA（Remote Direct Memory Access）技术原理、架构实现和应用场景。详细解析InfiniBand、RoCE、iWARP三种主要RDMA实现方案，探讨CPU Offload、Kernel Bypass、Zero Copy等关键特性如何实现超低延迟和高带宽的网络通信，广泛应用于高性能计算、深度学习训练和数据中心网络优化

📄️ 通用大模型和推理大模型区别

深入解析通用大模型与推理大模型的核心区别、应用场景和选择策略。从GPT、Claude到DeepSeek，帮助开发者和用户选择最适合的AI工具，提升工作效率和问题解决能力。

📄️ 常见AI模型训练推理框架对比

对比分析常见的大模型训练和推理框架，包括TensorFlow、PyTorch、TensorRT-LLM、vLLM、ONNX Runtime、Triton等，详细介绍各框架的优缺点及其在训练和推理方面的支持情况

📄️ AI模型训练推理常见业务场景痛点

梳理AI模型训练推理中的常见业务场景，包括资源批量调度、碎片化处理、多租户隔离、弹性资源管理、优先级调度、异构资源调度、训推动态平衡、分布式通信优化、成本分析和容错恢复等核心问题及解决方案