新电脑一些常用设置
2026/1/16 18:38:42
llama.cpp=「发动机」—— 纯推理库,命令行或 C/C++ API 调用,什么都要自己拼。
Ollama=「整车」—— 把 llama.cpp 发动机包成 Docker 式服务,一键拉模型、自动启停、REST/OpenAI 兼容,零配置就能用。
| 维度 | llama.cpp | Ollama | |
|---|---|---|---|
| 定位 | 底层推理引擎 | 上层模型运行工具 | |
| 安装 | 需自编译或下 release 二进制 | 一条 `curl -fsSL https://ollama.ai/install.sh | sh` |
| 模型获取 | 手工下载/转换 GGUF | ollama pull qwen2.5:7b自动完成 | |
| 启动方式 | ./main或./server手动指定参数 | ollama run qwen2.5:7b直接对话 | |
| 接口 | 命令行、C/C++ API、可启 HTTP 但需自己写 systemd | 默认 11434 端口,OpenAI 格式即开即用 | |
| 配置 | 全程命令行参数,无持久化 | 自动写 systemd 服务,Modelfile 管理参数 | |
| 多模型并行 | 自己开多个端口/进程 | ollama run llama3另开实例即可 | |
| 跨平台 | 全平台,需自己管 GPU 驱动 | 同样全平台,GPU 依赖自动检测 | |
| 适用人群 | 需要深度定制、嵌入式、最小体积 | 想 5 分钟搭好本地 LLM 服务 |