Ollama是一个开源大语言模型,可以作为后端 运行不同的LLM。
安装Ollama
我的服务器系统是Linux Debian 所以使用Ollama官方的一条命令就能安装:
curl -fsSL https://ollama.com/install.sh | sh
Mac和Windows参考官网: https://ollama.com/download/
过程中会连接github,下载ollama-linux-amd64.tgz,大约1.78g
安装完成后,会提示在本地 127.0.0.1:11434 运行了ollama实例。
测试ollama是否已经安装成功:
ollama -v
如果输出版本信息,则说明安装成功。
配置文件默认存在于: /etc/systemd/system/ollama.service
可以使用你熟悉的文本编辑工具进行编辑修改。
如果你的WebUI和Ollama位于不同的服务器,或者要使用第三方工具调用Ollama,需要远程访问Ollama的API的话,需要在配置的service处增加一条:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
如果指定使用某GPU的话,需要增加:
Environment="OLLAMA_DEVICE=cuda"
Environment="CUDA_VISIBLE_DEVICES=0"
然后重载并重启Ollama
sudo systemctl daemon-reload
sudo systemctl restart ollama
如果在Ollama本机安装WebUI则不用,暴露外网会增加服务器资源被盗用的风险。
附录Ollama常用环境变量:
参数 | 标识与配置 |
---|
OLLAMA_MODELS | 表示模型文件的存放目录,默认目录为当前用户目录即 C:\Users%username%.ollama\models Windows 系统 建议不要放在C盘,可放在其他盘(如 E:\ollama\models ) |
OLLAMA_HOST | 表示ollama 服务监听的网络地址,默认为127.0.0.1 如果想要允许其他电脑访问 Ollama(如局域网中的其他电脑),建议设置成 0.0.0.0,如果只允许局域网,建议设置为本机的局域网IP,例如 192.168.2.100 |
OLLAMA_PORT | 表示ollama 服务监听的默认端口,默认为11434 如果端口有冲突,可以修改设置成其他端口(如8080等) |
OLLAMA_ORIGINS | 表示HTTP 客户端的请求来源,使用半角逗号分隔列表 如果本地使用不受限制,可以设置成星号 * |
OLLAMA_KEEP_ALIVE | 表示大模型加载到内存中后的存活时间,默认为5m即 5 分钟 (如纯数字300 代表 300 秒,0 代表处理请求响应后立即卸载模型,任何负数则表示一直存活) 建议设置成 24h ,即模型在内存中保持 24 小时,提高访问速度 |
OLLAMA_NUM_PARALLEL | 表示请求处理的并发数量,默认为1 (即单并发串行处理请求) 建议按照实际需求进行调整 |
OLLAMA_MAX_QUEUE | 表示请求队列长度,默认值为512 建议按照实际需求进行调整,超过队列长度的请求会被抛弃 |
OLLAMA_DEBUG | 表示输出 Debug 日志,应用研发阶段可以设置成1 (即输出详细日志信息,便于排查问题) |
OLLAMA_MAX_LOADED_MODELS | 表示最多同时加载到内存中模型的数量,默认为1 (即只能有 1 个模型在内存中) |
常用命令:
ollama list #查看已安装的模型
ollama ps #查看正在运行的模型
ollama stop <model> #停止某个模型
ollama rm <model> #删除某个模型
创建用户和组
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo chown -R ollama:ollama /usr/share/ollama
重载并重启服务
sudo systemctl daemon-reload
sudo systemctl enable --now ollama.service
sudo systemctl status ollama.service
启动ollama
sudo systemctl start ollama
查看ollama服务状态
sudo systemctl status ollama
安装模型
Ollama只是一个平台,要实现AI聊天或者图文生成,需要安装模型,根据你的硬件配置选择合适的模型下载并安装。
Linux中,Ollama默认的模型路径为:
/usr/share/ollama/.ollama/models
部分配置可能使用 ~/.ollama/models
官网有模型列表:https://ollama.com/library 已经按照流行度排序。
使用pull命令,可以拉取对应的模型,run命令可以运行模型(当本地没有对应模型的时候执行run,会自动先拉取。)
查看本地已安装的模型:
ollama list
拉取 运行模型
ollama pull 模型名:版本
ollama run 模型名:版本
例如
ollama pull deepseek-r1:8b
如果你的硬件不是特别的宽裕,或者只是纯CPU推理的话,建议先尝试轻量级的模型:
ollama run phi3:3.8b
在没有GPU的情况下,如果内存低于16G,就选择7b参数以下模型,如果内存大于16G并且CPU核心数在16个以上就可以部署12b模型了,使用以下命令可以查看CPU核数和内存大小
nproc
free -h
其他模型:
谷歌的gemma3安装:
ollama pull gemma3:4b
DeepSeek的deepseek-r1安装:
ollama pull deepseek-r1:7b
Meta的llama-3.2安装:
ollama pull llama3.2:3b
阿里的qwen2.5安装:
ollama pull qwen2.5:7b
安装OpenWebUI
安装docker
apt install podman-docker
apt install docker.io
启动docker
systemctl start docker
systemctl enable docker
关联Ollama启动WebUI
sudo docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui1 --restart always ghcr.io/open-webui/open-webui:main
等待容器启动成功,依据硬件配置所需时间不等。
如果成功的话,使用ollama所在服务器的IP地址加端口8080,就可以打开Chat界面
例如 192.168.2.123:8080
如果需要外网访问的话,做反向代理到443端口即可。
后话