近年来,AI工程领域发展迅猛,各种新技术层出不穷。对于想要在这个领域深耕的工程师来说,掌握核心知识显得尤为重要。本文整理了AI工程10个关键方向的50篇必读论文和资源,涵盖大语言模型(LLM)、基准测试、提示工程(Prompting)、检索增强生成(RAG)、AI智能体(Agents)、代码生成、计算机视觉、语音技术、扩散模型和微调等领域。
这份清单的目标很明确:
- 精选约50篇论文(一年大约每周一篇)
- 不仅告诉你什么重要,更解释为什么重要
- 对AI工程师来说非常实用,不会浪费时间在过于基础的内容上
第一部分:前沿大语言模型(LLMs)
1. OpenAI GPT系列
GPT-1、GPT-2、GPT-3、Codex、InstructGPT、GPT-4系列论文是必读经典。此外,GPT-3.5、4o、o1和o3,以及GPT-4.5主要通过发布会和系统卡片介绍。
2. Anthropic Claude和Google Gemini
Claude 3/4和Gemini 1/2.5系列让你了解顶尖实验室的模型思路。特别推荐关注Claude 3.5 Sonnet和Gemini 2.0 Flash/Flash Thinking。开源方面有Gemma 2和Gemma 3。
3. Meta LLaMA开源系列
LLaMA 1、Llama2、Llama 3系列论文是了解领先开源模型的窗口。Mistral 7B、Mixtral和Pixtral可以看作LLaMA家族的延伸。中国模型表现也很出色,如Kimi K-2和Qwen 3。
4. DeepSeek技术栈
DeepSeek V1、Coder、Math(特别是GRPO)、MoE、V2、V3、R1系列展现了完整的技术演进路径。
5. 训练后优化综述
训练后(Post Training)综述论文帮助理解现代LLM的优化方法。
额外推荐:
- ModernBERT/NeoBERT:BERT模型作为分类器仍然很强大
- ColBERT:在应用中表现优异
- 开源模型架构比较:各种模型的技术细节对比
- 缩放法则文献:Kaplan、Chinchilla、Emergence/Mirage等
- 推理模型:2025年前沿领域将由o1、o3、R1、QwQ/QVQ、f1等推理模型主导
第二部分:基准测试与评估
1. 知识类基准
MMLU论文是主要的知识基准,与GPQA和BIG-Bench并列。2025年前沿实验室使用MMLU Pro、GPQA Diamond和BIG-Bench Hard。
2. 长上下文评估
MRCR论文用于评估长上下文能力,被OpenAI采用,优于MuSR、LongBench、BABILong和RULER。解决了过度依赖Needle in a Haystack测试的问题。
3. 数学能力测试
MATH论文包含数学竞赛题合集。前沿实验室关注FrontierMath、AMO和MATH子集:MATH level 5、AIME和AMC10/AMC12。
4. 指令遵循评估
IFEval论文是领先的指令遵循能力评估。另有Multi-IF、COLLIE和Scale MultiChallenge,已取代MT-Bench。
5. 抽象推理测试
ARC AGI挑战是著名的抽象推理"智力测试"基准,生命周期远超许多快速饱和的基准。
基准测试饱和速度越来越快,整个方法论可能需要新的替代方案。
第三部分:提示工程与思维链
1. 提示工程综述
**提示工程报告(The Prompt Report)**论文是关于提示工程的全面综述。
2. 思维链推理
思维链(Chain-of-Thought)论文推广了思维链概念,与Scratchpads和Let’s Think Step By Step并列。
3. 高级推理方法
**思维树(Tree of Thought)**论文引入了前瞻和回溯特征。
4. 软提示技术
提示调优(Prompt Tuning)论文展示了不需要硬编码提示的方法,可以进行前缀调优(Prefix-Tuning)、调整解码或表征工程。
5. 自动提示优化
自动提示工程(Automatic Prompt Engineering)论文表明人类是糟糕的零样本提示者,提示本身可以通过LLM增强。最值得注意的实现体现在DSPy论文/框架中。
第四部分:检索增强生成(RAG)
1. 信息检索基础
信息检索导论强调RAG是信息检索问题,IR有60年历史,包括TF-IDF、BM25、FAISS、HNSW等技术。
2. RAG概念奠基
2020年Meta RAG论文首次提出RAG术语。现代RAG的基本要求包括HyDE、分块、重排器、多模态数据。
3. 嵌入模型评估
MTEB论文是已知过拟合的基准,但仍是事实标准。许多嵌入模型值得关注:SentenceTransformers、OpenAI、Nomic Embed、Jina v3、cde-small-v1、ModernBERT Embed,其中**套娃嵌入(Matryoshka embeddings)**越来越标准。
4. 知识图谱整合
GraphRAG论文是微软将知识图谱整合到RAG的尝试,现已开源。这是2024年RAG最流行趋势之一,与ColBERT/ColPali/ColQwen并列。
5. RAG系统评估
RAGAS论文是OpenAI推荐的简单RAG评估工具。另有Nvidia FACTS框架和LLM中的外部幻觉综述。
第五部分:AI智能体(Agents)
1. 代码智能体基准
SWE-Bench可能是当今最受关注的智能体基准。技术上是编码基准,但更多测试智能体而非纯LLM。另有SWE-Agent、SWE-Bench Multimodal和Konwinski奖。
2. 工具使用基础
ReAct论文开启了工具使用和函数调用LLM的研究,包括Gorilla和AIFCL排行榜。历史上有Toolformer和HuggingGPT。
3. 长期记忆模拟
MemGPT论文是模拟长期智能体记忆的方法之一,已被ChatGPT和LangGraph采用。
4. 认知架构设计
Voyager论文提出3个认知架构组件:课程、技能库、沙盒。技能库/课程可抽象为智能体工作流记忆。
5. 智能体构建指南
Anthropic的构建高效智能体是2024年现状总结,强调链式反应、路由、并行化、编排、评估和优化的重要性。
第六部分:代码生成
1. 代码数据集
The Stack论文是专注于代码的开源数据集,开启了从The Stack v2到StarCoder的大量工作。
2. 开源代码模型
可选择DeepSeek-Coder、Qwen2.5-Coder或CodeLlama。许多人认为3.5 Sonnet是最好的代码模型。
3. 代码评估基准
HumanEval/Codex论文是已饱和但必备的基准。现代替代品包括Aider、Codeforces、IOI、BigCodeBench、LiveCodeBench和SciCode。
4. 流程工程方法
AlphaCodeium论文提出流程工程方法,可显著提升任何基础模型的性能。
5. 代码安全检测
CriticGPT论文训练模型发现LLM生成代码的安全问题,Anthropic使用SAEs识别导致问题的LLM特征。
第七部分:计算机视觉
1. 传统视觉任务
非LLM视觉研究仍重要,如YOLO论文(现更新至v11),但DETRs Beat YOLOs等Transformer模型也受关注。
2. 视觉-文本模型
CLIP论文是第一个成功的ViT(Vision Transformer)模型。现已被BLIP/BLIP2或SigLIP/PaliGemma超越,但仍是必备知识。
3. 多模态评估
MMVP基准量化了CLIP问题。有多模态版本的MMLU(MMMU)和SWE-Bench。另有MathVista和CharXiv。
4. 图像分割
Segment Anything Model(SAM)和SAM 2论文是成功的图像和视频分割基础模型,可与GroundingDINO搭配。
5. 融合架构研究
早期融合研究与廉价"晚期融合"方法(如LLaVA)相对,涵盖Meta的Flamingo、Chameleon、苹果的AIMv2、RekaCore等。
第八部分:语音技术
1. 语音识别
Whisper论文是成功的自动语音识别模型。Whisper v2、v3、distil-whisper和v3 Turbo都是开源权重模型。
2. 多模态语音
AudioPaLM论文展示了Google在PaLM演变为Gemini前的语音技术思路。另有Meta对Llama 3语音探索。
3. 文本转语音
NaturalSpeech论文是领先的文本转语音方法之一,最近有v3版本。
4. 全双工语音模型
Kyutai Moshi论文是令人印象深刻的全双工语音-文本开源权重模型。另有Hume OCTAVE。
5. 实时语音API
OpenAI实时API:缺失的手册记录了实时API相关信息,因为前沿omnimodel研究并未公开发表。
第九部分:图像/视频扩散模型
1. 稳定扩散
潜在扩散(Latent Diffusion)论文实际就是Stable Diffusion论文。另有SD2、SDXL、SD3系列。目前团队开发BFL Flux。
2. DALL-E系列
DALL-E/DALL-E-2/DALL-E-3论文是OpenAI的图像生成模型。
3. Google Imagen
Imagen/Imagen 2/Imagen 3论文是Google的图像生成模型。
4. 快速生成技术
一致性模型(Consistency Models)论文结合LCMs的蒸馏技术,现通过sCMs更新。
5. 视频生成突破
Sora博客文章展示文本到视频生成,除了DiT论文外没有正式论文,但仍是年度最重要发布,有许多开源竞争者如OpenSora。
自回归图像生成在今年广受欢迎,应用于Gemini、4o和Llama的原生图像生成。
第十部分:微调
1. 低秩适应方法
LoRA/QLoRA论文是廉价微调模型的事实标准,无论本地模型还是与4o配合使用。FSDP+QLoRA具有教育意义。
2. 偏好优化
DPO论文是略逊于PPO的替代方法,现作为偏好微调得到OpenAI支持。
3. 特征微调
ReFT论文不微调少量层,而专注于特征微调。
4. 合成数据生成
Orca 3/AgentInstruct论文展示了获取微调数据的绝佳方法,合成数据是热门方向。
5. 推理能力微调
强化学习/推理微调论文虽有争议,但Let’s Verify Step By Step和相关公开演讲揭示了工作原理。
这份清单涵盖了AI工程领域的核心知识体系。需要注意的是,许多前沿技术已从研究转向工业界,实用的工程建议往往在行业博文和演讲中,而非学术论文。建议结合理论学习和实际项目经验,通过开源框架和工具进行实践。
无论是初学者还是有经验的工程师,这50篇论文都能帮助建立扎实的理论基础,为在AI工程领域的深入发展奠定基础。记住,技术发展很快,保持学习和实践是关键。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~