韶关市网站建设_网站建设公司_加载速度优化

文章回顾了大型语言模型从2023年GPT-4发布以来的技术演进历程。2023年以"Scaling Laws"为主导，通过扩大模型规模提升能力；2024年转向效率革命，MoE架构和线性注意力机制成为解决计算瓶颈的关键；2025年则迎来推理新范式，模型通过"思考链"提升复杂任务性能，并开始具备智能体工具使用能力。这一发展路径展示了LLM从规模竞争到效率优化，再到推理能力提升的演变过程。

一、始于2023年的GPT - 4

1.1 2023年基线：GPT - 4范式

2023年初，LLM领域的发展遵循着一条清晰且强劲的轨迹，彼时规模决定能力，当年的热门术语便是“Scaling Laws”，即更大的参数、更多的计算量以及更庞大的数据规模。

这一理念的巅峰之作便是OpenAI的GPT - 4。作为2023年最为先进的AI，GPT - 4堪称大规模模型的典范。其基础架构依旧是Transformer，不过通过增加参数量，展现出了出色的性能。尤其在多种专业和学术基准测试中，它展现出了与人类相当的水平，例如在模拟律师资格考试中，它取得了排名前10%的成绩，而其前身GPT - 3.5的得分则位于后10%。

相较于GPT - 3.5，GPT - 4的关键进步体现在多个方面。首先，其上下文窗口长度得到了极大扩展，提供了8K和32K两种规格的上下文长度，远超前代的4K和2K，这类似于当年软盘时代，内存从1K提升到1M的变革。这使得模型能够处理更长、更复杂的任务，OpenAI也宣称GPT - 4在可靠性、创造力以及处理细微指令的能力上均优于GPT - 3.5。

GPT - 4的成功，为整个领域指明了一条通过持续扩大模型规模和数据量来提升智能水平的路径。这条演进路径的逻辑为：

1. 需要对架构进行改进：密集型Transformer模型的计算和内存开销是核心痛点。为了处理更复杂的现实世界问题，模型需要更大的上下文窗口来容纳所有相关信息，并需要更复杂的内部处理流程。然而，O(L^2)的复杂度和巨大的KV缓存使得这一需求在经济和技术层面都难以实现。因此，架构上的效率创新成为首要任务。混合专家（MoE）架构通过稀疏激活来降低计算量，而线性注意力等机制则直接突破了二次方复杂度的瓶颈。这些将在第二部分详细分析的创新，为后续发展铺平了道路。

2. 需要提升可解释性，找到新的增长范式：一旦模型的基础架构在效率上得到优化，实验室便有条件去探索计算成本更高的推理过程。在推理时进行“thinking”，即让模型在给出最终答案前进行一系列内部的、复杂的思考步骤，只有在底层架构足够高效的前提下才具有经济可行性，否则“thinking”一次耗时久且成本高，实用性欠佳。若没有MoE或线性注意力等技术降低基础成本，为每一次查询增加数倍乃至数十倍的“thinking”计算量是难以想象的。

3. 需要具备商业价值，切实可用：一个能够进行多步推理并形成复杂计划的模型固然强大，但一个能够利用工具去影响其他系统、付诸实践的模型，才具有真正的变革性。因此，Agent能力的开发，成为应用推理能力的自然延伸。它是这条因果链的第三个环节，也是最高阶的体现。

二、2024年至今，对效率的迫切需求

2.1 稀疏化的兴起：混合专家（MoE）架构

混合专家（Mixture - of - Experts, MoE）架构是这一时期应对效率挑战的核心策略之一，其基本思想是用大量小型的专家网络替换Transformer中密集的、计算量巨大的前馈网络（FFN）层。

对于输入序列中的每个token，一个门控网络（gating network）或称为路由器（router）的机制会动态地选择一小部分专家来处理它。按照这种模式，模型的总参数量可以急剧增加（例如R1直接达到671B的总参数量），但每次前向传播（即推理）时实际激活的参数量和计算量（FLOPs）却仅占一小部分（例如R1实际上只激活37B），从而实现了经济的训练和高效的推理。

2.1.1 DeepSeek的开创性MoE推进

DeepSeek在推广和开源MoE架构方面发挥了重要作用，从V2开始，到R1等系列模型清晰地展示了MoE架构的演进和威力，如今基本都是MoE的模型。

DeepSeek - V2：该模型引入了名为DeepSeekMoE的稀疏MoE架构。在236B（2360亿）参数的版本中，每个token仅激活21B（210亿）参数。这展示了超过10:1的总参数与激活参数之比，是MoE理念的经典体现，这种设计使得模型能够在保持巨大知识容量的同时，显著降低推理成本。
DeepSeek - V2 - Lite：为了便于学术研究和更广泛的部署，DeepSeek推出了16B参数的轻量版MoE模型，每个token仅激活2.4B参数。其技术报告详细说明了实现方式：除第一层外，所有FFN层都被MoE层取代。每个MoE层包含2个所有token共享的专家（shared experts）和64个路由选择的专家（routed experts），每次会为每个token激活6个路由专家。这种细粒度的设计（共享专家处理通用模式，路由专家处理特定子问题）展示了MoE架构的灵活性和复杂性。
DeepSeek R1：作为一款专为推理设计的模型，R1同样基于MoE架构。它拥有惊人的671B总参数，而每个token的激活参数量为37B，这进一步证明了MoE架构是实现数千亿级别参数模型的可行路径，尤其是在HPC（高性能计算）协同设计的支持下。

2.1.2 Qwen的混合产品组合策略

阿里的Qwen团队采取了独特的市场策略，Qwen3系列同时提供了密集模型（最高32B）和MoE模型（如30B - A3B，235B - A22B）。这一策略是对不同市场需求的针对性应对，密集模型通常具有更可预测的性能和更简单的微调流程，适合寻求稳定性的企业用户。MoE模型则代表了技术前沿，以极致的规模和性能吸引高端用户和研究者。这种双轨并行的产品线，让Qwen能够在不同的细分市场中保持竞争力，尤其是二次开发的衍生模型，Qwen在HF上一直是排名第一的衍生模型，大量的科研和二次开发都基于Qwen2.5，基于LLaMA的则越来越少。

2.1.3 Minimax - m1的混合MoE

最近6月刚发布且开源的Minimax的m1模型也采用了混合MoE架构，拥有32个专家。模型总参数量为456B，每个token激活45.9B参数。这再次印证了约10:1的总参数与激活参数之比已成为大型MoE模型的行业基准，主要也带来了超长上下文方面的提升，整体性能可查看表格，表现颇为出色。

2.2 注意力机制革命，超越二次方缩放

如果说MoE解决了FFN层的计算开销问题，那么新的注意力机制则旨在攻克Transformer架构的另一个核心瓶颈——自注意力机制（self - attention）与序列长度L的二次方计算复杂度O(L^2)，这一瓶颈是限制模型处理超长上下文（如百万级token）的主要障碍。

2.2.1 DeepSeek的多头潜在注意力（MLA）

机制：DeepSeek的Multi - Head Latent Attention (MLA)是一种创新的注意力机制，它通过将长序列的Key和Value向量（即KV缓存）压缩成一个单一的、低秩的潜在向量（latent vector）来解决KV缓存瓶颈。这极大地减少了存储历史信息所需的内存，使它在支持128K上下文长度的同时，KV缓存相较于前代模型减少了93.3%。
在V3中的演进：在DeepSeek - V3中，MLA得到了进一步优化，引入了更复杂的动态管理策略。例如，动态低秩投影（Dynamic Low - Rank Projection）可以根据序列长度自适应地调整压缩强度，短序列少压缩以保留保真度，超长序列（如32K - 128K）则深度压缩以控制内存增长。分层自适应缓存（Layer - Wise Adaptive Cache）会在模型的更深层修剪掉较早的KV条目，进一步优化了在极端长上下文场景下的内存使用。这些演进表明，对注意力机制的优化已进入精细化、动态化阶段。

2.2.2 Minimax - m1的闪电注意力（Lightning Attention）

机制：Minimax - m1采用了更为激进的混合注意力方案。大部分Transformer层使用的是一种名为闪电注意力（Lightning Attention）的线性复杂度（O(L)）机制。然而，为了防止模型表达能力和性能的过度损失，架构中每隔七个使用线性注意力的Transformer块，就会插入一个使用标准softmax注意力的完整Transformer块。
影响：这种设计在处理长序列时极大地降低了计算负荷。在生成长度为100K个token时，m1消耗的FLOPs仅为DeepSeek R1的25%，这直接支持高达100万token的超长上下文长度，这是一种在效率和性能之间进行权衡的设计。

2.2.3 Qwen2.5分组查询注意力（GQA）

Qwen2.5在技术报告中，明确提到架构中集成了分组查询注意力（Grouped Query Attention, GQA），以实现更高效的KV缓存利用。虽然GQA不像MLA或闪电注意力那样具有革命性，但它已成为现代LLM中一项标准的、不可或缺的优化技术，用于在性能和效率之间取得平衡。

2.2.4 效率作为战略护城河

对效率架构的选择，已不仅仅是技术层面的决策，更是一种核心商业战略，深刻地影响着各个AI实验室的竞争地位。开源社区和闭源巨头在此展现出截然不同的策略。

一方面，以DeepSeek和Qwen为代表的开源力量，选择将架构创新公之于众。他们详细公布了MLA、MoE的具体实现方式以及稀疏注意力框架的技术细节。其核心价值主张是：以远低于专有模型的成本，提供接近业界SOTA的性能，并附加架构透明度，方便开发者进行定制和研究。这一战略直接冲击了AI技术的高成本壁垒，通过开源和性价比来占领市场。

另一方面，以OpenAI和Anthropic为代表的闭源领导者，同样在效率上投入巨资（例如，GPT - 4o的API价格比GPT - 4 Turbo便宜50% ），但他们选择将具体的实现细节作为商业机密。他们将效率提升所节省下来的计算资源，再投资到计算成本更高昂的专有功能上，例如扩展思考（extended thinking）或智能体工具使用（agentic tool use）。对他们而言，护城河并非效率本身，而是由效率所解锁的、难以复制的独特能力。

这种战略分化创造了一个动态的竞争格局，**开源模型持续拉低标准推理服务的价格，迫使闭源领导者必须不断创新，推出新的、能证明高昂定价和专有性质的尖端功能。**因此，对效率的追求成为了整个领域发展的动力，它既推动了基础能力的“商品化”，也催生了新功能前沿的不断拓展。

三、2025年来，推理Thinking走向台前

3.1 CoT的逐渐拉长

这个新范式将计算开销的重心从预训练阶段部分转移到了推理阶段。其核心理念是，模型在生成最终答案之前，投入额外的计算资源来生成一段内部的思考链（CoT，chain of thought），从而在需要逻辑、数学和规划的复杂任务上实现性能的大幅提升。这标志着模型从静态的知识检索向动态的问题解决能力的转变。

3.1.1 OpenAI的o系列（o1, o3, o4 - mini）

机制：o系列模型是这一范式的开创者，它们在回答问题前会明确地花费时间进行“Thinking”。这个过程会生成一个长的、对用户隐藏的思考链，这段内部独白对于模型推导出正确答案至关重要。OpenAI以安全和竞争优势为由，禁止用户探查这个思考链。
影响：这种方法在重推理的基准测试上带来了显著的性能提升。例如，o1解决了83%的AIME（美国数学邀请赛）问题，而GPT - 4o仅解决了13%。这有力地证明了，对于特定类型的问题，推理时计算（test - time compute）比预训练计算能带来更大的价值。o系列还包括o1 - mini、o4 - mini这些变体，它们更快、更便宜，专为编码和STEM等不太需要广泛世界知识的任务进行了优化，非常适合对话使用。

3.1.2 Anthropic的Claude系列的混合推理

机制：Claude 3.7是首个以“混合推理模型”（hybrid reasoning model）为卖点的模型，它允许用户在快速响应和更深度的“扩展思考”（extended thinking）之间进行选择。随后的Claude 4（Opus和Sonnet版本）进一步将此功能完善为两种明确的模式，允许开发者根据具体应用场景，在延迟和准确性之间做出权衡。

3.1.3 Google的Gemini 2.5，屠榜的存在

Gemini 2.5 pro preview 0605最近在各项测试中名列前茅，表现卓越，直接查看下图。

另外，短期内流传出了Kingfall这个模型，它也支持推理模式，据说性能极其出色，但我尚未进行测试，可参考这篇文章：如何评价Google泄露AI模型KingFall，其性能和现有顶尖模型相比有提升么？

https://www.zhihu.com/question/1917689645715677739/answer/1918068480168691553

3.1.4 Qwen的方法

Qwen3：同样引入了“思考”和“非思考”模式，并在API中直接提供了一个名为“思考预算”（thinking budget）的参数，这表明这一范式已成为行业共识。思考模式专用于处理复杂的逻辑、数学和编码任务，而非思考模式则用于高效的通用聊天。

3.2 为推理而训练，强化学习的演进角色

强化学习（RL）的角色在这一时期发生了根本性转变。它不再仅仅是用于对话对齐（如RLHF）的工具，而是成为了教授模型如何进行推理的核心方法，推理时间也成为了新的“Scaling Laws”。

“Thinking”范式的出现，为扩展AI性能引入了一个全新的、正交的维度——推理时计算。这从根本上改变了AI实验室的经济模型和发展重点。在此之前，AI的进步主要沿着训练时计算和参数数量这两个维度来衡量。主流观点认为，用更多数据训练一个更大的模型，它就会变得更聪明，这是2024年之前的旧模式。

然而，o系列及同类模型证明，对于一组固定的模型权重，通过增加推理期间使用的计算量，可以显著提升模型在复杂任务上的表现。o1的技术分析中有一张图表明确显示，在AIME基准上的准确率随着测试时计算量的增加而提升，这便是新维度的直接证据。

这一转变带来了深远的、高阶的影响。首先，它预示着推理硬件的需求将大幅增长，而不仅仅是训练硬件。运行一次查询的成本不再是固定的，而是根据问题的难度动态变化，这为硬件市场带来了新的增长点。其次，它将研究重点从单纯地扩大预训练规模，转向开发更高效的推理算法（如在思考链中进行更优的搜索或规划）和更有效的RL技术来引导推理过程。此外，它也催生了新的产品设计和商业模式，“Model is the product”的商业模式正在演变，以适应这个新维度，催生了如Gemini Flash与Pro、o4 - mini与o3这样的分层产品，其中“Thinking”成为一个关键特性和差异化卖点，允许客户根据任务需求购买相应水平的智能。

3.2.1 DeepSeek - R1的RL优先流水线

机制：DeepSeek - R1的训练过程是以RL为中心的多阶段流程。在通过SFT（监督微调）进行Cold Start后，模型会进入一个大规模的RL阶段，该阶段专注于基于规则的评估任务，以激励模型生成准确且结构清晰的推理过程。此后，再进行更多的SFT和一个最终用于通用对齐的RL阶段。
目标：这种RL优先的方法促使模型自发地涌现出自我验证和错误修正等高级行为，产生了“Aha moment”，从而减少对大规模人工标注推理数据集的依赖，所以GRPO基本是目前广泛使用的模式，很多变体都是基于此进行改进。

3.2.2 Minimax - m1的CISPO算法

机制：Minimax为训练大型模型开发了一种新颖的RL算法CISPO（Clipping Importance Sampling Policy Optimization），这也是GRPO的变体，算法通过裁剪重要性采样权重而非使用信任域约束来稳定训练过程。
影响：这一算法创新对于成功训练庞大的456B混合专家模型至关重要。它在处理需要长远规划的复杂任务时，相比之前的方法实现了2倍的训练速度提升，仅用三周时间就完成了整个RL训练周期，花费了五百多万美元的GPU hours，具有较高的性价比。

3.3 从理想到行动：智能体工具使用的黎明

一旦模型具备了推理和规划的能力，合乎逻辑的下一步就是让它能够通过与外部工具交互来执行计划。这正是AI智能体的定义。

3.3.1 OpenAI的o3和o4 - mini

这些模型是首批被描述为具备“智能体工具使用”（agentic tool use）能力的模型。它们能够自主地决定何时以及如何组合使用网页搜索、Python代码分析和DALL - E图像生成等工具来解决一个复杂的用户请求。例如，模型可以多次搜索网页，分析返回结果，并根据分析动态调整后续策略。

3.3.2 Anthropic的Claude 4

Claude 4的发布伴随着一套专为构建智能体而设计的新API功能：一个代码执行Sandbox、一个用于访问本地文件的Files API和一个MCP工具。这些功能，再结合独特的“计算机使用”（computer use）能力（即生成鼠标和键盘操作），使Claude成为构建能够与数字信息和图形用户界面（UI）进行交互的强大智能体的理想平台，目前Claude Code也给Cursor等带来了很大的竞争压力。

普通人如何抓住AI大模型的风口？

为什么要学习大模型？

在DeepSeek大模型热潮带动下，“人工智能+”赋能各产业升级提速。随着人工智能技术加速渗透产业，AI人才争夺战正进入白热化阶段。如今近**60%的高科技企业已将AI人才纳入核心招聘目标，**其创新驱动发展的特性决定了对AI人才的刚性需求，远超金融（40.1%）和专业服务业（26.7%）。餐饮/酒店/旅游业核心岗位以人工服务为主，多数企业更倾向于维持现有服务模式，对AI人才吸纳能力相对有限。

这些数字背后，是产业对AI能力的迫切渴求：互联网企业用大模型优化推荐算法，制造业靠AI提升生产效率，医疗行业借助大模型辅助诊断……而餐饮、酒店等以人工服务为核心的领域，因业务特性更依赖线下体验，对AI人才的吸纳能力相对有限。显然，AI技能已成为职场“加分项”乃至“必需品”，越早掌握，越能占据职业竞争的主动权

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

如果你真的想学习大模型，请不要去网上找那些零零碎碎的教程，真的很难学懂！你可以根据我这个学习路线和系统资料，制定一套学习计划，只要你肯花时间沉下心去学习，它们一定能帮到你！

大模型全套学习资料领取

这里我整理了一份AI大模型入门到进阶全套学习包，包含学习路线+实战案例+视频+书籍PDF+面试题+DeepSeek部署包和技巧，需要的小伙伴文在下方免费领取哦，真诚无偿分享！！！

vx扫描下方二维码即可

部分资料展示

一、 AI大模型学习路线图

这份路线图以“阶段性目标+重点突破方向”为核心，从基础认知（AI大模型核心概念）到技能进阶（模型应用开发），再到实战落地（行业解决方案），每一步都标注了学习周期和核心资源，帮你清晰规划成长路径。

二、全套AI大模型应用开发视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

三、大模型学习书籍&文档

收录《从零做大模型》《动手做AI Agent》等经典著作，搭配阿里云、腾讯云官方技术白皮书，帮你夯实理论基础。

四、大模型大厂面试真题

整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题，涵盖基础理论、技术实操、项目经验等维度，每道题都配有详细解析和答题思路，帮你针对性提升面试竞争力。

适用人群

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

韶关市网站建设_网站建设公司_加载速度优化_seo优化