下面给你一份在 48GB 显存/内存条件下可本地部署、且已经被验证具备 Agent 能力(工具调用 / 浏览器操作 / 多步规划)的开源 LLM 方案清单,并按成熟度与实战可用性分层说明。
我会重点区分三件事(非常关键):
- 模型本身是否“原生支持工具调用 / function calling”
- 是否已有成熟的 Agent 框架适配
- 在 48GB 资源下的“最佳部署形态”
一、结论先行(推荐优先级)
首选(强烈推荐,生产级)
Qwen2.5-32B-Instruct / Qwen2.5-14B-Instruct
次优(Agent 研究 / 多智能体实验)
DeepSeek-V3(蒸馏版) / DeepSeek-R1-Distill-32B
补充(偏通用 / 英文 Agent)
LLaMA 3.1 70B(量化) / 34B 系列
二、模型级别详细分析
1️⃣ Qwen2.5 系列(当前最适合本地 Agent 的开源模型)
推荐型号
- Qwen2.5-32B-Instruct
- Qwen2.5-14B-Instruct(性价比极高)
为什么是首选
这是目前“Agent 原生能力”做得最完整的开源模型:
✅ 原生支持Tool Calling / Function Calling(JSON Schema)
✅ 对ReAct / Plan → Act → Observe非常稳定
✅ 中文 + 英文 Agent 表现都极强
✅ 官方文档明确支持 Agent 场景
✅ 和 LangChain / LangGraph / AutoGen / CrewAI 适配成熟
48GB 部署建议
| 模型 | 精度 | 显存占用 | 说明 |
|---|---|---|---|
| Qwen2.5-32B | FP16 | ~65GB | ❌ 不可 |
| Qwen2.5-32B | INT4 / AWQ / GPTQ | 22–28GB | ✅ 推荐 |
| Qwen2.5-14B | FP16 | ~28GB | ✅ 直接可用 |
推荐推理引擎
- vLLM(强烈推荐)
- TGI
- llama.cpp(Agent 能力略受限)
2️⃣ DeepSeek 系列(偏“推理型 Agent / Planner”)
推荐型号
- DeepSeek-R1-Distill-Qwen-32B
- DeepSeek-V3-Distill-32B
适合什么场景
- Planner / Verifier / Critic Agent
- 多智能体系统中的「决策脑」
- 长链推理、策略生成
注意事项(很重要)
⚠️DeepSeek 原生并不是“函数调用优先模型”
👉 更适合:
- Planner
- Strategy Generator
- Evaluator
- World Model
而不是:
- Tool Executor
- UI Agent
48GB 部署
- INT4 后25–30GB
- 与 Qwen 搭配做异构 Agent非常好
3️⃣ LLaMA 3.1 / 3 系列(英文 Agent 稳定)
推荐型号
- LLaMA 3.1 70B(INT4)
- LLaMA 3 34B
优点
- 英文工具调用稳定
- Web Agent 生态成熟(BrowserAgent / WebVoyager)
- 与 AutoGPT / BabyAGI 兼容性好
缺点
- 中文 Agent 明显弱于 Qwen
- 对 JSON Schema 严格性略差
48GB 可行性
- 70B 需INT4 + vLLM
- 推理速度偏慢
三、浏览器操作 Agent(重点)
浏览器能力 ≠ 模型能力,而是系统能力
推荐组合(非常成熟)
✅ Playwright / Selenium + LLM
Browser:
- Playwright(推荐)
- Chromium Headless
LLM:
- Qwen2.5-32B
- LLaMA 3.1
已验证框架
- BrowserGPT
- WebVoyager
- LangGraph Browser Agent
- AutoGen + Browser Tool
为什么 Qwen 更适合浏览器 Agent
- 对 DOM / HTML 结构理解强
- 多轮指令遵循性高
- 工具调用格式稳定
四、48GB 本地 Agent 参考架构(实战)
┌────────────────────────────┐ │ Planner Agent │ │ DeepSeek-R1-Distill-32B │ └──────────────┬─────────────┘ ↓ ┌────────────────────────────┐ │ Executor Agent │ │ Qwen2.5-32B-Instruct │ │ (Tool / Browser / Code) │ └──────────────┬─────────────┘ ↓ ┌────────────────────────────┐ │ Verifier / Critic Agent │ │ Qwen2.5-14B or DeepSeek │ └────────────────────────────┘五、如果你只选一个模型
直接结论:
Qwen2.5-32B-Instruct(INT4)
这是目前:
- Agent 能力最全面
- 中文 + 英文最均衡
- 工具调用最稳定
- 48GB 最优解
六、如果你愿意,我可以继续帮你做的事
你可以直接选一个方向,我给你可直接跑的方案:
- 完整 Agent 系统 Docker Compose(Qwen + Browser + Tools)
- Planner / Executor / Verifier 模型拆分建议
- LangGraph Agent 实战模板
- 对标 Manus / Devin 的本地 Agent 架构
- 在 48GB 下的极限优化(KV Cache / 并发 / batch)
你只需要告诉我:
👉你是偏“研究 MAS”还是“做生产级 Agent 产品”?
========================
我来帮您搜索具备agent能力的开源大语言模型本地部署方案。
根据您的需求(48GB显存本地部署、具备agent能力),以下是详细的开源LLM推荐和部署方案:
推荐模型选择
1.Qwen2.5系列(首选推荐)
- Qwen2.5-32B-Instruct:约需32-48GB显存,性能接近70B级别模型
- Qwen2.5-14B-Instruct:约需16-24GB显存,48GB显存可流畅运行并有余量
- 优势:原生支持工具调用,具备完善的Agent框架Qwen-Agent
2.DeepSeek系列
- DeepSeek-V2-Chat:220B参数,48GB显存可运行量化版本
- DeepSeek-Coder-V2:编程能力强,支持代码生成和工具调用
3.LLaMA3系列
- LLaMA3.1-70B-Instruct:需48GB+显存,支持工具调用
- LLaMA3.1-8B-Instruct:轻量级选择,48GB显存可运行多个实例
Agent能力实现方案
1.Qwen-Agent框架
# 环境配置conda create-n qwen-agent python=3.12conda activate qwen-agent git clone https://github.com/QwenLM/Qwen-Agent.git cd Qwen-Agent pip install-e."[rag,code_interpreter,python_executor]"2.LLaMA Factory微调
- 支持Agent Tuning功能
- 通过
dataset: glaive_toolcall_zh使模型获得工具调用能力 - 支持约120种模型的agent场景训练
硬件配置建议
| 模型规模 | 推荐显存 | 配置方案 |
|---|---|---|
| 7B参数 | 16GB | RTX 4080/3090 |
| 14B参数 | 32GB | RTX 4090 (24GB×2) |
| 32B参数 | 48GB | RTX 4090 (24GB×2) + 量化 |
部署工具推荐
1.Ollama(简单易用)
# 安装curl-fsSL https://ollama.ai/install.sh|sh# 运行模型ollama run qwen2.5:32b-instruct2.vLLM(高性能推理)
fromvllmimportLLM,SamplingParams llm=LLM(model="Qwen/Qwen2.5-32B-Instruct")3.本地API服务
- 使用FastChat搭建兼容OpenAI API的本地服务
- 配合Gradio创建可视化界面
完整部署流程
硬件要求
- GPU:NVIDIA RTX 4090 (24GB×2) 或 A100 (40GB×1)
- 内存:64GB+ DDR5
- 存储:2TB SSD
部署步骤
- 安装CUDA和cuDNN
- 配置Python 3.10+环境
- 安装依赖库(transformers、accelerate、vllm)
- 下载模型权重
- 启动模型服务
- 配置Agent框架
性能优化建议
- 量化技术:使用GPTQ/AWQ量化降低显存需求
- 模型并行:多GPU并行推理
- 内存优化:启用KV Cache优化
对于48GB显存的配置,推荐使用Qwen2.5-32B-Instruct配合Qwen-Agent框架,这是当前开源方案中agent能力最完善、性能最平衡的选择。
================================
根据您对“具备工具调用、浏览器操作等 Agent 能力、可本地部署且显存约 48GB”的需求,以下几款开源 LLM 或 Agent 框架是理想的选择。它们均支持函数/工具调用,并能通过插件或内置能力操作浏览器,且能在 48GB 显存的 GPU(如 RTX 6000 Ada、RTX 4090 等)上流畅运行。
🎯 推荐选项概览
| 模型/框架 | 主要能力 | 硬件要求(显存) | 部署方式 | 开源地址 |
|---|---|---|---|---|
| Fara‑7B(微软) | 专为计算机操作设计的 Agent 模型,直接解析网页截图并驱动鼠标、键盘执行点击、输入、滚动等操作;支持 Playwright 标准操作和网页宏操作。 | 7B 参数,约 14‑16 GB(可量化至更低) | 通过 Hugging Face 或 Magentic‑UI 部署;支持 Windows 11 本地运行。 | [reference:0] |
| AutoWebGLM(清华) | 基于 ChatGLM3‑6B 的自动网页导航 Agent,通过 HTML 简化与 OCR 模块理解页面,输出点击、填写、滚动等浏览器动作。 | 6B 参数,约 12‑14 GB | 使用提供的 Chrome 扩展或本地服务部署。 | [reference:1] |
| Qwen‑Agent(阿里) | 完整的 Agent 框架,内置工具调用(函数调用)、浏览器助手(BrowserQwen 插件)、代码解释器等;可搭配Qwen2.5‑7B/14B‑Instruct等本地模型。 | 7B 约 14 GB、14B 约 28 GB(48GB 显存可同时运行模型+其他组件) | 使用 Ollama、vLLM 或直接启动 Qwen‑Agent 服务;配合 BrowserQwen 浏览器插件。 | [reference:2]、[reference:3] |
| Gorilla OpenFunctions‑v2(UC Berkeley) | 专门针对API/函数调用优化的模型,能够根据自然语言描述生成正确的 API 调用参数。 | 7B/13B 参数,约 14‑26 GB | 通过 llama.cpp 或 vLLM 部署。 | [reference:4] |
| ToolLlama(社区) | 基于 LLaMA 微调的工具调用专用模型,支持多种外部工具的检索与调用。 | 7B/13B 参数,约 14‑26 GB | 使用 transformers 或 llama.cpp 加载。 | – |
🔍 各选项详细说明
1.Fara‑7B(微软 · 专为电脑操作设计的 Agent)
- 能力:直接接收网页截图,输出鼠标点击、键盘输入、滚动等动作,无需依赖可访问性树;支持 Playwright 标准操作和网页宏操作(如
web_search)。 - 硬件要求:7B 参数,FP16 约 14 GB,INT4 量化后仅需约 4‑5 GB,适合 48GB 显存多任务并行。
- 部署:Hugging Face 提供模型权重,微软提供 Magentic‑UI 研究原型,可在 Windows 11 本地运行。
- 参考:微软官方介绍[reference:5]。
2.AutoWebGLM(清华 · 自动网页导航 Agent)
- 能力:基于 ChatGLM3‑6B,通过 HTML 简化与 OCR 模块解析页面,输出点击、填写、滚动等浏览器动作,实现自动网页导航。
- 硬件要求:6B 参数,FP16 约 12‑14 GB,适合 48GB 显存。
- 部署:提供 Chrome 扩展及本地服务,可直接在浏览器中运行。
- 参考:项目介绍[reference:6]。
3.Qwen‑Agent(阿里 · 全功能 Agent 框架)
- 能力:工具调用(支持自定义函数、API 调用)、浏览器操作(通过 BrowserQwen 插件)、代码解释器、多 Agent 协作等。
- 模型选择:可搭配Qwen2.5‑7B‑Instruct(约 14 GB)或Qwen2.5‑14B‑Instruct(约 28 GB),在 48GB 显存中仍有充裕空间。
- 部署:
- 安装 Qwen‑Agent:
pip install -e ./"[gui,rag,code_interpreter,python_executor]" - 本地启动模型服务(如使用 Ollama、vLLM)。
- 配置 Qwen‑Agent 连接本地模型端点[reference:7]。
- 安装 BrowserQwen 浏览器插件[reference:8]。
- 安装 Qwen‑Agent:
- 参考:部署指南[reference:9]、浏览器插件使用[reference:10]。
4.Gorilla OpenFunctions‑v2(UC Berkeley · 专业函数调用)
- 能力:专门针对 API/函数调用优化,能够根据自然语言描述生成正确的 API 调用参数。
- 硬件要求:7B/13B 参数,FP16 约 14‑26 GB。
- 部署:可通过 llama.cpp、vLLM 或直接使用 transformers 加载。
- 参考:项目介绍[reference:11]。
5.ToolLlama(社区 · 工具调用专用)
- 能力:基于 LLaMA 微调,专注于工具检索与调用。
- 硬件要求:7B/13B 参数,约 14‑26 GB。
- 部署:使用 transformers 或 llama.cpp 加载。
🚀 部署建议(针对 48GB 显存)
| 需求 | 推荐方案 | 说明 |
|---|---|---|
| 侧重浏览器自动化 | Fara‑7B或AutoWebGLM | 两者均为视觉/HTML 驱动的浏览器 Agent,适合需要直接操作网页的任务。 |
| 全功能 Agent(工具调用+浏览器) | Qwen‑Agent + Qwen2.5‑14B‑Instruct | 14B 模型在 48GB 显存中仍有约 20GB 余量,可同时运行模型、浏览器插件及其他工具。 |
| 专攻 API/函数调用 | Gorilla OpenFunctions‑v2(13B) | 在 48GB 显存中运行轻松,适合需要精准调用外部 API 的场景。 |
| 轻量级快速启动 | Qwen‑Agent + Qwen2.5‑7B‑Instruct | 7B 模型仅需约 14GB 显存,部署简单,仍具备完整的工具调用与浏览器操作能力。 |
通用部署步骤(以 Qwen‑Agent 为例):
- 准备环境:安装 Python 3.8+、CUDA、PyTorch。
- 部署模型:使用 Ollama(
ollama run qwen2.5:14b)或 vLLM 启动本地模型服务。 - 安装 Qwen‑Agent:
pip install -e ./"[gui,rag,code_interpreter,python_executor]"。 - 配置模型端点:在 Qwen‑Agent 中设置
model_server为本地服务地址(如http://127.0.0.1:9995/v1)。 - 安装浏览器插件:克隆 BrowserQwen 仓库,加载到 Chrome/Firefox。
- 启动智能体服务:运行
run_server.py,打开http://localhost:7864即可使用。
💎 总结
- 若您主要需要浏览器自动化,可选择Fara‑7B或AutoWebGLM。
- 若您需要完整的 Agent 能力(工具调用、浏览器操作、代码解释等),推荐Qwen‑Agent + Qwen2.5‑14B‑Instruct,它在 48GB 显存下资源利用最均衡。
- 若您专注 API/函数调用,可选用Gorilla OpenFunctions‑v2。
以上所有选项均为开源项目,支持本地部署,您可根据具体任务偏好和硬件条件进行选择。