人工智能领域常见术语梳理

不定期更新完善。

基础概念

大语言模型

大语言模型(Large Language Model, LLM)：参数量巨大(数十亿到数万亿)的语言模型，通过在海量文本数据上训练，掌握语言的深层规律和广泛知识。能理解和生成自然语言，完成问答、写作、翻译、代码生成等多种任务。代表模型有GPT系列、Claude、Llama等。就像博览群书的学者，阅读了互联网上的大量文本后具备了广泛的知识和语言能力。参数越多模型越强大，但训练和运行成本也越高。

基础模型

基础模型(Foundation Model)：在大规模、多样化数据上预训练的通用模型，可以作为基础适配到各种下游任务。不针对特定任务，而是学习通用的表示和能力，然后通过微调或提示工程应用到具体场景。大语言模型就是基础模型的典型代表。就像通识教育打好基础，然后可以选择不同专业方向深造。一个基础模型可以派生出无数应用。

多模态模型

多模态模型(Multimodal Model)：能同时处理和理解多种类型数据(文本、图像、音频、视频等)的模型，打破单一模态的限制。可以根据图片回答问题、根据文本生成图片、理解视频内容等。代表模型有GPT-4V、Claude 3、Gemini等。就像人类用眼睛看、耳朵听、嘴巴说综合理解世界，多模态模型模拟这种综合感知能力，比单一处理文字更强大。

思维链

思维链(Chain of Thought, CoT)：引导大模型逐步推理的提示技术，让模型"展示思考过程"。在提示中加入"让我们一步步思考"或提供推理示例，模型会先输出中间推理步骤，再给出最终答案。能显著提高数学、逻辑等复杂问题的准确率，因为分步骤降低了出错概率，也让推理过程可解释。就像考试要求写解题步骤，一步步推导比直接写答案更不容易错。

检索增强生成

检索增强生成(Retrieval-Augmented Generation, RAG)：结合信息检索和文本生成的技术，先从知识库检索相关信息，再基于检索结果生成回答。弥补大模型知识更新滞后、容易产生幻觉的问题，用实时准确的外部信息增强生成质量。就像开卷考试，可以查资料再作答，答案更准确可靠。广泛应用于企业问答系统、文档助手等场景。

提示调优

提示调优(Prompt Tuning)：不改变模型参数，只优化输入提示词的方法。通过精心设计提示内容、格式、示例来引导模型输出期望结果。相比微调，提示调优无需训练，成本极低，灵活性高，但效果可能不如微调稳定。就像问问题的方式不同得到的答案质量不同，找到最佳问法就是提示调优。提示工程(Prompt Engineering)是相关的实践技能。

幻觉

幻觉(Hallucination)：大模型生成看似流畅合理但实际错误或编造的内容，是当前的主要局限。模型基于统计规律生成文本，可能"一本正经地胡说八道"，编造不存在的事实、引用、数据等。就像侃侃而谈但实际信口开河的人。应对方法包括检索增强(RAG)、增加引用、多模型验证、用户提醒等。使用大模型时需要批判性验证其输出。

温度

温度(Temperature)：控制生成文本随机性的参数，影响输出的创造性和确定性。温度值通常在0到2之间，默认1。温度高(如1.5-2)输出更随机、多样、有创意，但可能不连贯；温度低(如0.1-0.5)输出更确定、保守、一致，但可能枯燥。温度0接近贪婪搜索，总选概率最高的词。就像做菜的火候，大火爆炒(高温度)有锅气但容易糊，小火慢炖(低温度)稳定但可能寡淡。

机器学习

机器学习（ML）

机器学习(Machine Learning, ML)：让计算机从数据中自动学习规律和模式的技术，无需显式编程告诉它每一步该怎么做。传统编程是人写规则让计算机执行，而机器学习是让计算机自己从数据中总结规律。就像教小孩认水果，不用告诉他"红色圆形带梗的是苹果"，只要给他看够多的苹果样例，他自己就能总结出苹果的特征。

监督学习

监督学习(Supervised Learning)：机器学习的方式之一，从已标注好的数据中学习的方法，每条数据都有明确的"答案"(标签)。模型通过学习大量"问题-答案"对，掌握从输入到输出的映射关系。就像学生做习题，每道题都有标准答案供对照学习。典型应用包括图片分类(给照片标注类别)、垃圾邮件识别(标注邮件是否垃圾)、房价预测(给出历史成交数据)。

无监督学习

无监督学习(Unsupervised Learning)：机器学习的方式之一，从未标注的数据中自动发现隐藏的模式和结构，数据没有预定义的"正确答案"。模型要自己摸索数据的内在规律和分组方式。就像让你整理一堆照片，没人告诉你分类标准，你可能按人物、地点或时间自己归类。常见任务包括客户分群、异常检测、数据降维等。

半监督学习

半监督学习(Semi-supervised Learning)：机器学习的方式之一，结合少量标注数据和大量未标注数据进行学习的方法，介于监督学习和无监督学习之间。现实中标注数据成本高昂(需要人工逐个标注)，而未标注数据容易获取。半监督学习用少量标注数据指明方向，再利用大量未标注数据提升模型性能。就像老师批改了几份作业示范，然后让学生参考着互相学习。

强化学习（RL）

强化学习(Reinforcement Learning, RL)：机器学习的方式之一，通过与环境不断交互、试错来学习最优决策策略的方法。智能体(Agent)在环境中采取行动，根据获得的奖励或惩罚反馈来调整策略。就像训练宠物或玩游戏升级，做对了给奖励(加分)，做错了给惩罚(扣血)，反复尝试找到得分最高的玩法。AlphaGo下围棋、机器人学走路都用到强化学习。

训练微调

预训练（PT）

预训练(Pre-training, PT)：在大规模无标注数据上训练模型的初始阶段，让模型学习语言的基础规律和广泛知识。通常采用自监督学习任务，如预测下一个词(语言模型)、掩码词预测(BERT)等。预训练是构建基础模型的核心步骤，耗费大量算力和数据，但只需做一次。就像打地基和建主体结构，是最耗时耗力但最关键的阶段。预训练后的模型具备通用语言理解能力，可以通过微调适配到各种下游任务。

增量预训练（CPT）

增量预训练(Continual Pre-training, CPT)：在已有预训练模型基础上，使用新的领域数据或更新的数据继续进行预训练，让模型获得特定领域知识或更新知识库。与从头预训练相比，增量预训练成本更低，能够在保持通用能力的同时增强专业能力。比如在通用大模型上用医学文献继续预训练，让它掌握医学专业知识。就像在已有知识基础上继续深造学习新领域，比从零开始效率高得多。

微调（FT）

微调(Fine-tuning)：在预训练大模型基础上，用特定任务的数据继续训练，让模型适应具体场景。预训练提供通用能力，微调定制专业能力。比如用医疗对话数据微调通用模型，让它成为医疗助手。微调所需数据量远小于从头训练，成本更低效果更好。就像大学毕业生(预训练)到公司后针对性培训(微调)成为专业人才。

有监督微调（SFT）

有监督微调(Supervised Fine-Tuning, SFT)：使用标注好的"输入-输出"对数据进行监督学习微调的方法，是指令微调的核心实现方式。与预训练的无监督学习不同，SFT使用高质量的人工标注数据，让模型学习特定的输入输出模式和任务完成方式。是大语言模型训练流程中的关键步骤，通常在预训练或增量预训练之后、人类偏好对齐之前进行。就像学生在掌握基础知识后，通过做标准答案的练习题来提升应试能力，学会如何正确回答问题。

强化微调（RFT）

强化微调(Reinforcement Fine-Tuning, RFT)：使用强化学习方法对模型进行微调，通过奖励信号引导模型优化输出。与监督微调直接学习标准答案不同，强化微调通过探索和试错学习最优策略，更适合没有标准答案或需要多步推理的复杂任务。可以基于自动化评估指标(如代码执行结果、数学验证)或人类反馈(RLHF)进行训练。就像通过实战演练和反馈不断改进决策能力，比单纯背答案更能培养解决问题的能力。

人类偏好对齐（RLHF）

人类偏好对齐(Reinforcement Learning from Human Feedback, RLHF)：基于人类反馈的强化学习方法，让模型输出更符合人类偏好、价值观和期望。具体流程包括：收集人工对模型不同输出的排序或评分，训练奖励模型来预测人类偏好，最后用强化学习(如PPO算法)优化模型生成策略以最大化奖励。能让模型输出更有帮助、更安全、更符合人类期望，显著提升用户体验。ChatGPT的成功很大程度归功于RLHF技术。就像通过用户评价和反馈持续改进产品，让AI真正懂得人类想要什么。

张量

张量(Tensor)：多维数组，是深度学习框架中的基本数据结构，用于表示和存储数据。标量是0维张量(一个数)，向量是1维张量(一串数)，矩阵是2维张量，更高维的统称张量。神经网络的输入、输出、权重都用张量表示，计算本质是张量运算。PyTorch、TensorFlow等框架的核心就是张量及其运算。就像乐高积木是基本单元，张量是搭建AI模型的基础组件。

TensorFlow

Google开发的开源深度学习框架，提供完整的端到端机器学习平台。功能强大，支持从研究到生产部署的全流程，有丰富的工具生态(TensorBoard可视化、TF Serving部署等)。但学习曲线较陡，API复杂度高。适合大规模工业应用和生产环境。就像工业级全套装备，功能齐全但上手需要时间。

PyTorch

Facebook(Meta)开发的深度学习框架，以灵活易用著称，是当前学术研究界最流行的框架。采用动态计算图，调试方便，代码简洁直观，接近原生Python风格。社区活跃，论文复现多用PyTorch。适合快速原型开发和研究实验。就像轻便的瑞士军刀，灵活好用易上手。

损失函数

损失函数(Loss Function)：衡量模型预测值与真实值差距的函数，训练目标是最小化损失。就像考试的扣分标准，告诉模型哪里做得不好、扣了多少分。不同任务用不同损失函数：分类常用交叉熵损失，回归常用均方误差。损失函数的选择直接影响模型学到什么。训练过程就是不断调整参数让损失函数的值越来越小。

梯度

梯度(Gradient)：指示每个参数应该如何调整的信号，是损失函数相对于参数的变化率（导数）。梯度告诉模型两件事：调整方向（增大还是减小参数）和调整幅度（变化快慢）。就像猜数字游戏，我心中目标数字是10，猜7时告诉你"往大了猜"（方向），并且"差得还挺远"（幅度），下次就该往更大的方向猜。梯度大说明参数对损失影响大，需要大步调整；梯度小说明接近最优，小步微调即可。

梯度下降

梯度下降(Gradient Descent)：一种优化算法，通过计算梯度(斜率)来调整参数，让损失函数逐步减小。梯度指向函数上升最快的方向，沿着负梯度方向走就能下降。就像蒙眼下山，摸索脚下的坡度，朝最陡的方向往下走，最终到达山谷最低点。有多种变体:批量梯度下降(用全部数据)、随机梯度下降(SGD，每次一个样本)、小批量梯度下降(Mini-batch，折中方案)。

反向传播

反向传播(Backpropagation)：神经网络的核心训练算法，从输出层反向逐层计算每个参数的梯度，用于更新参数。前向传播计算输出和损失，反向传播利用链式法则将误差从后往前传，算出每个权重对损失的影响(梯度)，然后用梯度下降更新权重。就像考试后分析错题，从最终错误倒推，找出每个步骤的问题。这是让深度网络可训练的关键技术。

过拟合

过拟合(Overfitting)：模型在训练数据上表现很好，但在新数据上表现差的现象。模型记住了训练数据的细节和噪声，而没有学到泛化的规律，导致泛化能力弱。就像学生死记硬背标准答案，考原题满分，题目稍有变化就不会做了。解决方法包括：增加数据、正则化、简化模型、Dropout、提前停止训练等。

欠拟合

欠拟合(Underfitting)：模型太简单，连训练数据都学不好的现象。模型复杂度不足以捕捉数据中的模式，预测误差大。就像用小学知识应对高考题，压根没学懂知识点。训练集和测试集上表现都很差。解决方法:增加模型复杂度、增加训练轮次、减少正则化、添加更多特征等。

超参数

超参数(Hyperparameter)：训练前需要人工设定的参数，控制模型结构和学习过程，如学习率、批量大小、网络层数、神经元数量等。与训练过程中自动学习的模型参数(权重、偏置)不同，超参数不通过梯度下降更新。超参数的设置显著影响模型性能，需要通过实验或自动化方法寻找最优值。就像做菜前定好火候和时间，不是边做边调的。

超参数调优

超参数调优(Hyperparameter Tuning)：寻找最优超参数组合的过程，也叫超参数搜索。常用方法有:网格搜索(穷举组合，计算量大但全面)、随机搜索(随机采样，效率更高)、贝叶斯优化(根据历史结果智能选择下一组参数)、自动化工具(如Optuna、Ray Tune)等。就像调试配方找最佳比例，需要反复实验。

参数高效微调

参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)：只更新少量参数实现微调的方法，而非更新全部参数。大幅降低计算和存储成本，同时保持接近全量微调的效果。常见方法有LoRA、Adapter、Prefix Tuning等。比如在百亿参数模型上只训练几百万参数就能适配新任务。就像装修房子不全部重建，只改局部就达到新效果，省时省力。

LoRA

LoRA(Low-Rank Adaptation)：一种参数高效微调技术，通过在模型权重旁边添加低秩矩阵来适配新任务。只训练这些小矩阵(占原参数1%左右)，冻结原模型权重。训练快、显存占用小，可以为不同任务训练多个LoRA切换使用。就像给西装配不同领带，不用买多套西装，换领带就能适配不同场合。是当前最流行的高效微调方法。

指令微调

指令微调(Instruction Tuning)：用"指令-响应"格式的数据微调模型，让它更好地理解和遵循人类指令。训练数据包含各种任务指令和对应的理想输出。指令微调后的模型更易用，能准确理解用户意图，按要求完成任务。GPT系列、Claude等模型都经过大量指令微调。就像培训客服人员理解各种客户需求，按规范服务。

Top-k采样

Top-k采样(Top-k Sampling)：生成每个词时只从概率最高的k个候选词中采样，过滤掉低概率词。平衡输出质量和多样性，k值越大越多样但可能出现低质量词，k值越小越保守。常见k值为40-100。就像选秀节目只在前k名选手中投票，保证基本水准。相比贪婪搜索(只选最高概率)更灵活，相比完全随机采样更可控。

Top-p采样

Top-p采样(Nucleus Sampling)：也叫核采样，从累计概率达到p的最小候选词集合中采样。动态确定候选集大小，概率分布陡峭时集合小(确定性高)，平缓时集合大(多样性高)。比Top-k更灵活自适应。p通常设为0.9-0.95。就像按实力动态划分候选人范围，而不是固定名额。Top-p和温度常配合使用，是现代文本生成的标准配置。

模型压缩

模型压缩(Model Compression)：减小模型大小和计算量的技术集合，让大模型能在资源受限设备上运行。主要方法包括剪枝(删除冗余参数)、量化(降低精度)、知识蒸馏(训练小模型模仿大模型)、低秩分解等。压缩后模型体积更小、推理更快、耗电更少，但可能略微损失性能。就像压缩文件或精简装备，在保持核心功能的同时减轻负担。

剪枝

剪枝(Pruning)：删除神经网络中不重要的参数、连接或神经元，减小模型规模。通过分析参数重要性(如权重大小、梯度等)，移除贡献小的部分，再重新训练恢复性能。可以减少50%-90%参数，速度提升明显，精度略降。就像修剪树枝，去掉冗余枝叶，树木更健壮高效。结构化剪枝(整个通道或层)比非结构化剪枝(零散参数)更利于加速。

量化

量化(Quantization)：降低模型参数的数值精度，从32位浮点数(FP32)降到16位(FP16)、8位整数(INT8)甚至更低。减少内存占用(可达4-8倍)和计算量，加快推理速度。量化感知训练(训练时模拟量化)效果更好，训练后量化(直接转换)更简单。就像照片从高清压缩成标清，文件小很多，视觉效果差别不大。是部署大模型到移动设备的关键技术。

知识蒸馏

知识蒸馏(Knowledge Distillation)：用大模型(教师)的知识训练小模型(学生)，让小模型获得接近大模型的能力。学生模型学习教师的输出分布(软标签)而非原始标签(硬标签)，包含更丰富信息。蒸馏后的小模型运行更快、成本更低，适合部署。就像名师指导徒弟，传授经验技巧，徒弟虽然水平不及师傅但远超自学。是获得高效模型的重要途径。

模型集成

模型集成(Model Ensemble)：组合多个模型的预测结果，综合它们的优势以获得更好的性能。可以投票(分类)、平均(回归)或加权组合。不同模型犯的错误往往不同，集成可以互补，通常比单个模型更准确稳定，但推理成本成倍增加。就像专家会诊或评委打分，集体决策比个人更可靠。竞赛中常用，生产中权衡成本和收益。

数据并行

数据并行(Data Parallelism)：将训练数据分成多份，在多个GPU上同时训练相同模型的副本，每个GPU处理不同批次数据。训练完一个批次后，各GPU计算的梯度汇总求平均，然后同步更新所有副本的参数。最常用的并行策略，实现简单效果好。就像工厂多条流水线同时生产相同产品，最后统一质检改进工艺。适合模型能放进单个GPU、但数据量大训练慢的场景。

模型并行

模型并行(Model Parallelism)：将单个大模型拆分到多个GPU上，每个GPU只存储和计算模型的一部分。当模型太大单个GPU放不下时必须使用。分为层间并行(不同层放不同GPU)和层内并行(单层切分到多GPU)。就像建大楼，一层楼太大一个工地放不下，要分多个区域分别施工，但各区域要协调配合。实现复杂，通信开销大，但能训练超大模型。

流水线并行

流水线并行(Pipeline Parallelism)：模型并行的优化版，将模型按层切分成多个阶段(stage)放到不同GPU，像流水线一样依次处理不同批次数据。当第一个GPU处理完第一批数据传给第二个GPU后，不是等待而是立即处理第二批数据，让所有GPU尽可能同时工作。就像工厂流水线，切菜、炒菜、装盘同时进行，提高效率。减少了GPU空闲时间，提升了模型并行的资源利用率。

张量并行

张量并行(Tensor Parallelism)：在单个算子(层)内部进行并行，将矩阵运算切分到多个GPU协同计算。比如一个大矩阵乘法，把矩阵按行或按列切分，多个GPU各算一部分再合并结果。粒度更细，通信更频繁但能充分利用多GPU算力。就像搬大柜子，一个人搬不动，多人一起抬，每人出一份力。常与流水线并行组合使用，是训练超大模型(如GPT-3、GPT-4)的关键技术。

模型评估

训练集

训练集(Training Set)：用于训练模型、调整模型参数的数据集，模型通过学习这部分数据掌握规律。占数据集的主要部分(通常60%-80%)。模型会反复"看"训练集数据，不断优化参数以减小预测误差。就像学生的练习题集，用来学习知识和方法。训练集的质量和数量直接影响模型学习效果。

验证集

验证集(Validation Set)：用于调整超参数和模型选择的数据集，不参与模型训练但指导训练过程。训练时定期在验证集上评估性能，用于决定何时停止训练(防止过拟合)、对比不同模型、调整超参数。占数据集10%-20%。就像学生的模拟考试，用来检验学习效果和调整复习策略，但不是最终考核。

测试集

测试集(Test Set)：用于最终评估模型性能的数据集，模型从未见过，也不用于任何训练决策。只在模型完全训练好后使用一次，模拟真实应用场景。占数据集10%-20%。就像正式考试，是对学习成果的最终评判。测试集性能代表模型在未知数据上的真实表现，是向外界报告的指标。

准确率

准确率(Accuracy)：预测正确的样本数占总样本数的比例，最直观的评估指标。公式：准确率 = 正确预测数 / 总样本数。适用于类别平衡的数据。但在类别不平衡时会误导，比如100个样本中99个负例1个正例，模型全预测为负也有99%准确率，实际没学到任何东西。此时需要看精确率、召回率等指标。

精确率

精确率(Precision)：在所有预测为正例的样本中，真正是正例的比例。公式：精确率 = 真正例(TP) / (真正例(TP) + 假正例(FP))。衡量"查准率"或"准确性"，关注预测的可靠性。高精确率意味着误报少。比如垃圾邮件过滤，精确率高说明标记为垃圾的邮件确实是垃圾，正常邮件不会被误杀。

召回率

召回率(Recall)：在所有真实正例中，被正确预测为正例的比例。公式：召回率 = 真正例(TP) / (真正例(TP) + 假负例(FN))。衡量"查全率"或"覆盖率"，关注是否把正例都找出来。高召回率意味着漏报少。比如疾病诊断，召回率高说明患病的人都被检测出来了，不会漏诊。精确率和召回率通常此消彼长，需要权衡。

算力指标

TFLOPS

TFLOPS(Tera Floating-point Operations Per Second)：每秒万亿次浮点运算，是衡量芯片或系统理论计算性能的基本单位。1 TFLOPS = 10^12次浮点运算每秒。浮点运算是指涉及小数的数学计算(加减乘除)，是深度学习中矩阵运算的核心。比如NVIDIA A100 GPU的FP32算力为19.5 TFLOPS，意味着每秒能完成19.5万亿次单精度浮点运算。就像衡量汽车发动机的马力，TFLOPS是衡量芯片"计算马力"的标准。数值越大，理论计算能力越强。

PFLOPS

PFLOPS(Peta Floating-point Operations Per Second)：每秒千万亿次浮点运算，是TFLOPS的千倍级别(1 PFLOPS = 1000 TFLOPS = 10^15次运算每秒)。通常用于衡量超级计算机或大规模GPU集群的总算力。比如一个配备1000张A100 GPU的集群，总算力可达到数十PFLOPS。训练大型语言模型(如GPT-3、GPT-4)需要的总算力往往以PFLOPS-days(千万亿次浮点运算天数)为单位衡量。就像用"万亿"来衡量国家GDP，PFLOPS是衡量超大规模算力的单位。

EFLOPS

EFLOPS(Exa Floating-point Operations Per Second)：每秒百亿亿次浮点运算，是PFLOPS的千倍级别(1 EFLOPS = 1000 PFLOPS = 10^18次运算每秒)。代表超算领域的顶级算力水平，目前全球最强超算刚刚突破EFLOPS门槛。比如美国的Frontier超算达到1.1 EFLOPS，中国的神威·太湖之光和天河系列也在此级别。训练下一代超大规模AI模型(万亿参数级)需要接近或超过EFLOPS级别的算力。就像从"千万富翁"到"亿万富翁"的跨越，EFLOPS代表算力的极致追求。

TOPS

TOPS(Tera Operations Per Second)：每秒万亿次运算，注意这里是"运算"而非"浮点运算"，通常指整数运算。常用于衡量AI推理芯片(特别是边缘设备芯片)的算力，因为推理可以用低精度整数(如INT8)加速。比如手机AI芯片可能提供10-50 TOPS的INT8算力，自动驾驶芯片可能达到数百TOPS。相比TFLOPS，TOPS更适合描述低精度、高效率的推理场景。就像工业生产用粗加工比精密加工快，整数运算比浮点运算简单高效，适合推理部署。

TTFT

TTFT(Time To First Token)：首字时延，指用户发送请求到模型生成并返回第一个token(词)的时间。直接影响用户体验的即时性，特别是流式输出场景。TTFT包括请求传输、模型加载、Prompt处理、首次推理等时间。越短越好，理想情况下应在几百毫秒以内。就像问问题后对方开始回答的反应时间，反应快让对话流畅自然。优化方法包括模型量化、缓存优化、并行处理等。TTFT低让AI对话更接近真人交互体验。

TPOT

TPOT(Time Per Output Token)：输出单词时延，指生成每个后续token的平均时间。与TTFT关注首词不同，TPOT衡量的是持续输出的速度。决定了模型的吞吐量和长文本生成效率。比如TPOT为50ms，生成100个词需要5秒。越小越好，意味着生成速度快。就像说话的语速，每个字之间的间隔时间。优化方法包括批处理、内存优化、计算优化等。TPOT低让AI生成长文本更快，提升系统整体吞吐能力。

TBT

TBT(Time Between Tokens)：词间时延，与TPOT概念相同，都指生成相邻两个token之间的时间间隔。有些文献或系统使用TBT术语。在流式输出场景中，稳定的TBT让输出节奏均匀，用户体验更好。如果TBT波动大，会出现时快时慢的"卡顿"感。就像音乐的节奏，稳定的节拍让人舒适，忽快忽慢则让人难受。监控和优化TBT的稳定性对提供流畅的AI交互体验很重要。

MFU

MFU(Model FLOPs Utilization)：模型浮点运算利用率，衡量实际训练中有效计算占理论峰值算力的比例。MFU = (实际有效计算量) / (硬件理论峰值算力 × 运行时间) × 100%。训练过程中存在大量非计算开销(数据读取、通信同步、内存访问等)，导致GPU无法满载运行。高MFU意味着硬件利用率高，训练效率好。业界优秀的大模型训练可以达到50%-60% MFU，普通训练可能只有20%-30%。就像工厂机器的开机率，理论产能是100，但实际可能因为等料、维护等只产出50，开机率就是50%。提升MFU是降低训练成本的关键。

GFU

GFU(GPU FLOPs Utilization)：GPU浮点运算利用率，与MFU概念类似，特指GPU硬件层面的算力利用率。衡量GPU在实际工作中达到其理论峰值算力的程度。理想情况下GFU接近100%，但实际受限于内存带宽、指令效率、并行度等因素，很难达到。高效的算子实现和系统优化可以提升GFU。比如cuBLAS、cuDNN等优化库能让矩阵运算达到较高的GFU。就像运动员的体能发挥率，理论最大力量是100，但实际比赛中能发挥80-90已经很优秀。提升GFU需要软硬件协同优化。

硬件工具

GPU

GPU(Graphics Processing Unit)：图形处理器，原本为图形渲染设计，但其强大的并行计算能力使其成为训练深度学习模型的主力硬件。包含数千个计算核心，擅长同时处理大量简单计算，非常适合神经网络的矩阵运算。NVIDIA的GPU(如RTX、A100、H100系列)占据AI训练市场主导地位。就像工厂流水线，虽然每个工人(核心)能力有限，但数千人同时工作效率惊人。没有GPU，深度学习不可能有今天的发展。

TPU

TPU(Tensor Processing Unit)：Google专门为深度学习设计开发的AI专用芯片，针对张量运算深度优化。比通用GPU更高效，功耗更低，专为TensorFlow等框架优化。Google内部大量使用，也通过云服务对外提供。就像专业工具比瑞士军刀在特定任务上更高效，TPU在AI训练和推理上比GPU更专精。代表了AI硬件专用化的趋势。

CUDA

CUDA(Compute Unified Device Architecture)：NVIDIA开发的并行计算平台和编程模型，让开发者能用GPU加速通用计算任务。提供C/C++扩展和丰富的库(cuDNN、cuBLAS等)，深度学习框架底层大多依赖CUDA。掌握了GPU市场的事实标准，但只支持NVIDIA GPU。就像iOS和iPhone的关系，CUDA把NVIDIA GPU的硬件能力开放给软件开发者，是深度学习生态的关键基础设施。

GPU Direct

GPU Direct：NVIDIA的技术，允许GPU之间、GPU与其他设备(如网卡、存储)之间直接传输数据，无需经过CPU和系统内存。包括GPUDirect P2P(GPU间直接通信)、GPUDirect RDMA(GPU与网卡直接通信)等。大幅降低数据传输延迟和CPU开销，提升多GPU训练效率。就像城市间修建直达高速公路，不必绕道中转站，大幅缩短运输时间。

PCIe

PCIe(Peripheral Component Interconnect Express)：高速串行计算机扩展总线标准，用于连接主板和各种扩展卡(如GPU、网卡、存储卡)。PCIe 3.0 x16提供约16GB/s带宽，PCIe 4.0翻倍，PCIe 5.0再翻倍。GPU通过PCIe与CPU和内存通信，带宽直接影响数据传输效率。在多GPU训练中，PCIe带宽可能成为瓶颈。就像高速公路的车道数，决定了数据流量的上限。

NVLink

NVLink：NVIDIA开发的高速GPU互连技术，提供比PCIe高得多的带宽(单条NVLink 3.0达100GB/s，一个GPU可有多条NVLink)。多个GPU通过NVLink直接互连形成高速网络，大幅提升多GPU间的数据传输速度。训练大模型时，梯度同步、张量并行等需要频繁GPU间通信，NVLink能显著降低通信开销。就像给城市间修建专用高铁，比普通公路

NVSwitch

NVSwitch：NVIDIA的GPU交换芯片，像网络交换机一样连接多个GPU，让任意两个GPU之间都能通过NVLink高速通信。一个NVSwitch可连接多个GPU，多个NVSwitch可级联构建更大规模的GPU集群。NVIDIA DGX系统使用NVSwitch实现全连接GPU拓扑，最大化通信带宽。就像立交桥，让多条高速公路实现全互联，任意两点都能高速直达。

RDMA

RDMA(Remote Direct Memory Access)：远程直接内存访问技术，允许一台计算机直接访问另一台计算机的内存，无需操作系统和CPU介入。绕过内核协议栈，实现零拷贝、低延迟、低CPU占用的数据传输。在分布式训练中，节点间需要频繁同步梯度和参数，RDMA能显著降低通信延迟(微秒级)和CPU开销，提升训练效率。就像两个仓库之间开通直达传送带，货物直接传输，不需要人工搬运和中转。

InfiniBand

InfiniBand(IB)：高性能计算网络标准，原生支持RDMA，提供极高带宽(单链路400Gbps起)和极低延迟(亚微秒级)。是HPC(高性能计算)和AI训练集群的首选网络方案，广泛用于超算中心和大型AI训练集群。支持多种拓扑结构(胖树、Dragonfly等)，具有强大的QoS保障和拥塞控制能力。就像专为高速运输设计的磁悬浮列车系统，速度快、延迟低、可靠性高。

RoCE

RoCE(RDMA over Converged Ethernet)：在以太网上实现RDMA的技术，让普通以太网也能享受RDMA的高性能。有两个版本：RoCE v1基于以太网二层，RoCE v2基于三层可路由，更灵活实用。相比InfiniBand成本更低，可以利用现有以太网基础设施。RoCE v2已成为云数据中心和企业AI集群的主流选择，平衡了性能和成本。就像在普通公路上开高速专线，比修建专用高速路便宜，性能也不错。

iWARP

iWARP(Internet Wide Area RDMA Protocol)：另一种在以太网上实现RDMA的技术，基于TCP/IP协议栈。相比RoCE，iWARP对网络设备要求更低，兼容性更好，可以跨越路由器和防火墙。但性能略逊于RoCE和InfiniBand，CPU开销稍高。适合需要跨广域网或复杂网络环境的场景。就像在传统交通系统上增加快速通道，兼容性强但速度稍逊于专用系统。快几倍。

基础概念​

大语言模型​

基础模型​

多模态模型​

思维链​

检索增强生成​

提示调优​

幻觉​

温度​

机器学习​

机器学习（ML）​

监督学习​

无监督学习​

半监督学习​

强化学习（RL）​

训练微调​

预训练（PT）​

增量预训练（CPT）​

微调（FT）​

有监督微调（SFT）​

强化微调（RFT）​

人类偏好对齐（RLHF）​

张量​

TensorFlow​

PyTorch​

损失函数​

梯度​

梯度下降​

反向传播​

过拟合​

欠拟合​

超参数​

超参数调优​

参数高效微调​

LoRA​

指令微调​

Top-k采样​

Top-p采样​

模型压缩​

剪枝​

量化​

知识蒸馏​

模型集成​

数据并行​

模型并行​

流水线并行​

张量并行​

模型评估​

训练集​

验证集​

测试集​

准确率​

精确率​

召回率​

算力指标​

TFLOPS​

PFLOPS​

EFLOPS​

TOPS​

TTFT​

TPOT​

TBT​

MFU​

GFU​

硬件工具​

GPU​

TPU​

CUDA​

GPU Direct​

PCIe​

NVLink​

NVSwitch​

RDMA​

InfiniBand​

RoCE​

iWARP​