简单来说Ollama就是一个大模型的管理平台,“LLM 运行器” 或 “本地 LLM 管理器”
Ollama
是一个基于 Go 语言开发的简单易用的本地大语言模型运行框架。可以将其类比为 docker,事实上它也的确制定了类 docker 的一种模型应用标准在管理模型的同时,它还基于 Go 语言中的 Web 框架 gin提供了一些 Api 接口,让你能够像跟 OpenAI 提供的接口那样进行交互。
几个关键点:
- 允许用户下载并在自己的 Mac、Windows (通过 WSL) 或 Linux 电脑上运行各种强大的开源 LLMs,例如DeepSeek,llama等。
- Ollama 是一个开源项目,代码托管在 GitHub 上,社区活跃,发展迅速
- 提供了一个简单易用的命令行工具(也有webUI)来管理(下载、删除、列出)模型和运行模型进行交互式聊天
- 当你运行一个模型时,Ollama 会在本地启动一个 API 服务器(默认在 11434 端口)。这使得其他应用程序(如自定义脚本、Web 界面、开发工具等)可以通过标准的 REST API 与本地运行的 LLM 进行交互,通常兼容 OpenAI 的 API 格式,方便集成。
- Ollama 维护了一个包含许多流行开源模型的库,用户可以方便地从中选择和下载。用户也可以导入自定义模型
- 支持利用 GPU(如果你的系统有兼容的 NVIDIA GPU 或 Apple Silicon)进行加速,以提高模型推理的速度。当然,它也可以仅在 CPU 上运行(速度会慢很多)。——灵活:没有GPU就用CPU
直接在官网根据不同的操作系统下载与安装即可。
Ollama支持的模型
https://ollama.com/search列出了支持的模型。
例如有gemma3,qwq,deepseek-r1,llama3.3,phi4
7B表示70亿的参数,以此类推。
选择相应的模型参数数量级之后通过右侧的命令进行下载:
注:ollama官方给出的参考如下:
如果下载7b,建议本机拥有8G内存;如果下载13b,建议本机拥有16G内存;如果下载33b,建议本机拥有32G内存;如果下载70b,建议本机拥有128G内存
下载建议:
如果是语言类模型,建议Gemma,DeepSeek,Qwen
如果是视觉类(图片),建议llava,Phi,minicpm-v
Ollama 快速上手
可以通过“ollama run +模型”来运行模型,这里以运行“gemma”模型为例演示如何使用Ollama。
打开终端窗口,输入“ollama run gemma:2b”运行Gemma模型(或者官网看到的其他模型的运行命令),如果Ollama没有该模型,会自动下载模型后再运行,后续运行不会重复下载模型。(下面这个命令是7b的)
1
ollama run gemma
Ollama支持命令行方式使用模型,也支持API方式使用模型,这里先演示命令行方式使用模型,API方式使用模型参考后文。
可以在与模型多次对话后输入“/clear”来清除上下文信息。最后使用ctrl+d 或者 输入 /bye
退出Ollama。
注:
通过ollama list
查看ollama已经下载过的模型有哪些:
删除某个模型:
1
ollama rm gemma:latest
补充其他命令:
模型会话中支持多行输入,可以使用“"""”
将文本括起来,进行对话。
1
2
3
4
5
6
7
8
9
>>>"""
... 请给我讲一个故事
... 不超过100字
... """
<think>
</think>
当然可以,请听一下这个有趣的故事:
... ...
>>>/bye
在运行模型时,可以将prompt(提示词)作为参数传入给模型,无需进入与模型对话的交互式窗口即可获取模型返回内容。如下:
1
2
3
4
ollama run deepseek-r1:1.5b "你是谁"
<think>
</think>
您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。如您有任何任何问题,我会尽我所能为您提供帮助。
执行模型时,可以加入“–verbose”来查看每次对话后模型执行的效率细节。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
ollama run deepseek-r1:1.5b --verbose
>>> 你是谁
<think>
</think>
您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。如您有任何任何问题,我会尽我所能为您提供帮助。
total duration: 578.5214ms
load duration: 28.5914ms
prompt eval count: 5 token(s)
prompt eval duration: 37.5937ms
prompt eval rate: 133.00 tokens/s
eval count: 40 token(s)
eval duration: 511.8619ms
eval rate: 78.15 tokens/s
total duration:表示整个运行过程所花费的总时间。
load duration:表示加载模型所花费的时间,单位为毫秒。
prompt eval count:表示在处理提示(prompt)时评估的标记(token)数量。
prompt eval duration:表示评估提示所花费的时间,单位为毫秒。
prompt eval rate:表示评估提示时的速度,以每秒处理的标记数量表示。
eval count:表示在生成响应时评估的标记数量。
eval duration:表示生成响应所花费的时间,单位为毫秒。
eval rate:表示生成响应时的速度,以每秒处理的标记数量表示。
不仅仅可以与模型进行对话,也可以让模型分析文本文件及图片内容。这里下载llava模型并进行图片内容分析。
1
2
3
4
5
6
7
8
#拉取模型
ollama pull llava:7b
#在C盘下准备pic.png图片,并通过该模型分析图片内容
C:\Users\wubai>ollama run llava:7b "请中文回复图片中是什么内容? C:\pic1.png"
Added image 'C:\pic1.png'
这张照片显示了一名人,戴着头部上的葫叶服饰,手中也戴着一些装饰。他们身穿的衣服有多彩的元素,以及一些华佩样式的鞋和裙。照片背景是一个山谷场景,可以看到远处的山岭、天空和白云。整体感觉像是一位在中国农村地区的人,戴着传统服饰,与自然环境相轨。