Ollama 本地大模型运行平台完整指南

📅 2026年5月23日 | 阅读时间约20分钟 | 标签: AI工具 · 本地部署 · 开源

Ollama 是一款开源的本地大语言模型(LLM)运行平台,核心使命是:

"让开发者无需云服务即可在本地运行超过150个开源大模型"

一句话理解:Ollama = Docker for LLMs,用管理容器的思路来管理大模型。

一、发展历程

时间里程碑
2023年项目启动,基于llama.cpp构建
2024年GitHub Stars 突破10万
2025年支持模型数量超过100个
2026年3月165k Stars,40,000+社区集成,版本0.17.7

二、核心技术架构

2.1 技术栈

┌─────────────────────────────────────────────────────┐
│                     Ollama 架构层                          │
├─────────────────────────────────────────────────────────┤
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐       │
│  │  CLI / API  │  │   Web UI    │  │   SDKs      │       │
│  └──────┬──────┘  └──────┬──────┘  └──────┬──────┘       │
│         │                │                │               │
│  ┌──────┴────────────────┴────────────────┴──────┐     │
│  │           REST API (OpenAI兼容)                 │     │
│  └───────────────────────┬───────────────────────┘     │
│                          │                               │
│  ┌──────────────────────┴───────────────────────┐     │
│  │           Model Management                      │     │
│  └───────────────────────┬───────────────────────┘     │
│                          │                               │
│  ┌──────────────────────┴───────────────────────┐     │
│  │           Runtime Engine (llama.cpp)           │     │
│  └───────────────────────────────────────────────┘     │
│                                                          │
│  ┌───────────────────────────────────────────────┐     │
│  │       Hardware (CPU/CUDA/ROCm/Metal)         │     │
│  └───────────────────────────────────────────────┘     │
└─────────────────────────────────────────────────────────┘

2.2 llama.cpp底层引擎

2.3 GGUF量化格式

量化级别每参数bit压缩率推荐场景
FP1616bit1x精度优先
Q88bit0.5x均衡方案
Q4_K_M4bit0.25x推荐首选
Q33bit0.1875x极致压缩
Q22bit0.125x最低显存

三、支持的模型库

模型系列版本参数量范围适用场景
Meta Llama3.1 / 3.2 / 3.3 / 48B – 405B通用对话/代码
阿里 Qwen2.5 / 3 / 3.50.5B – 235B中文/代码/推理
DeepSeekR1 / V3 / Coder1.5B – 671B推理/代码/数学
Google Gemma2 / 32B – 27B轻量对话
Mistral7B / 8x22B7B+通用/代码
Phi4 / 4-mini1B+轻量级
Yi1.5 / 2 / 36B+中英双语
Command R+-104BRAG/工具调用

四、硬件配置指南

4.1 模型规模 vs 硬件要求

模型规模量化精度显存需求推荐硬件
7BQ4~4GBRTX 3060 / M2
7BFP16~14GBRTX 3080 / M3 Pro
13BQ4~8GBRTX 3080 / M3 Pro
33BQ4~20GBRTX 4090 / M3 Max
70BQ4~40GB多卡RTX 4090
70BQ8~80GB多卡A100

4.2 Apple Silicon配置

M系列芯片统一内存架构优势:

五、命令行使用指南

5.1 安装

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows (PowerShell)
irm https://ollama.com/install.ps1 | iex

# Docker
docker run -d -v ollama:/root/.ollama -p 11434:11434 ollama/ollama

5.2 基础命令

# 拉取模型
ollama pull llama3.2           # 拉取最新
ollama pull qwen2.5:14b       # 指定版本
ollama pull deepseek-r1:1.5b  # 蒸馏小模型

# 运行模型
ollama run llama3.2           # 交互模式
ollama run qwen2.5:14b "你好"  # 单次请求

# 模型管理
ollama list                   # 查看已下载
ollama show llama3.2          # 查看模型信息
ollama rm llama3.2            # 删除模型
ollama serve                  # 启动API服务(默认11434端口)

5.3 Modelfile自定义模型

# 创建中文助手
FROM llama3.2
PARAMETER temperature 0.7
PARAMETER top_p 0.9
SYSTEM """
你是一个专业的中文AI助手。
请用清晰、专业的方式回答问题。
"""

六、API接口详解

6.1 REST API(OpenAI兼容)

# 聊天补全
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "system", "content": "你是一个助手"},
    {"role": "user", "content": "你好"}
  ],
  "stream": false
}'

# Embeddings
curl http://localhost:11434/api/embeddings -d '{
  "model": "nomic-embed-text",
  "prompt": "要嵌入的文本"
}'

6.2 Python SDK

from ollama import chat
response = chat('llama3.2', messages=[
    {'role': 'user', 'content': 'Hello!'}
])
print(response['message']['content'])

七、竞品对比

维度OllamaLM StudioJanLocalAI
界面CLI + API桌面UI桌面UIAPI优先
模型管理简单丰富丰富中等
OpenAI兼容完整部分部分完整
社区生态最大中等中等
跨平台全平台仅桌面仅桌面全平台

八、适用场景判断

推荐用Ollama:

结论

Ollama正在让"每个人都能拥有自己的AI"成为可能。

它不仅是一个工具,更是一种全新的AI使用范式——让大模型从云端走进本地,从企业走向个人。

参考链接