安装私有语言聊天大模型平台Ollama

Ollama是一个开源大语言模型，可以作为后端运行不同的LLM。

安装Ollama

我的服务器系统是Linux Debian 所以使用Ollama官方的一条命令就能安装：

curl -fsSL https://ollama.com/install.sh | sh

Mac和Windows参考官网： https://ollama.com/download/

过程中会连接github，下载ollama-linux-amd64.tgz，大约1.78g

安装完成后，会提示在本地 127.0.0.1:11434 运行了ollama实例。

测试ollama是否已经安装成功：

ollama -v

如果输出版本信息，则说明安装成功。

配置文件默认存在于： /etc/systemd/system/ollama.service

可以使用你熟悉的文本编辑工具进行编辑修改。

如果你的WebUI和Ollama位于不同的服务器，或者要使用第三方工具调用Ollama，需要远程访问Ollama的API的话，需要在配置的service处增加一条：

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

如果指定使用某GPU的话，需要增加：

Environment="OLLAMA_DEVICE=cuda"
Environment="CUDA_VISIBLE_DEVICES=0"

然后重载并重启Ollama

sudo systemctl daemon-reload
sudo systemctl restart ollama

如果在Ollama本机安装WebUI则不用，暴露外网会增加服务器资源被盗用的风险。

附录Ollama常用环境变量：

参数	标识与配置
OLLAMA_MODELS	表示模型文件的存放目录，默认目录为当前用户目录即 `C:\Users%username%.ollama\models` Windows 系统建议不要放在C盘，可放在其他盘（如 `E:\ollama\models`）
OLLAMA_HOST	表示ollama 服务监听的网络地址，默认为127.0.0.1 如果想要允许其他电脑访问 Ollama（如局域网中的其他电脑），建议设置成 0.0.0.0，如果只允许局域网，建议设置为本机的局域网IP，例如 192.168.2.100
OLLAMA_PORT	表示ollama 服务监听的默认端口，默认为11434 如果端口有冲突，可以修改设置成其他端口（如8080等）
OLLAMA_ORIGINS	表示HTTP 客户端的请求来源，使用半角逗号分隔列表如果本地使用不受限制，可以设置成星号 `*`
OLLAMA_KEEP_ALIVE	表示大模型加载到内存中后的存活时间，默认为5m即 5 分钟（如纯数字300 代表 300 秒，0 代表处理请求响应后立即卸载模型，任何负数则表示一直存活）建议设置成 24h ，即模型在内存中保持 24 小时，提高访问速度
OLLAMA_NUM_PARALLEL	表示请求处理的并发数量，默认为1 （即单并发串行处理请求）建议按照实际需求进行调整
OLLAMA_MAX_QUEUE	表示请求队列长度，默认值为512 建议按照实际需求进行调整，超过队列长度的请求会被抛弃
OLLAMA_DEBUG	表示输出 Debug 日志，应用研发阶段可以设置成1 （即输出详细日志信息，便于排查问题）
OLLAMA_MAX_LOADED_MODELS	表示最多同时加载到内存中模型的数量，默认为1 （即只能有 1 个模型在内存中）

常用命令：

ollama list	#查看已安装的模型
ollama ps	#查看正在运行的模型
ollama stop <model>	#停止某个模型
ollama rm <model>	#删除某个模型

创建用户和组

sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo chown -R ollama:ollama /usr/share/ollama

重载并重启服务

sudo systemctl daemon-reload
sudo systemctl enable --now ollama.service
sudo systemctl status ollama.service

启动ollama

sudo systemctl start ollama

查看ollama服务状态

sudo systemctl status ollama

安装模型

Ollama只是一个平台，要实现AI聊天或者图文生成，需要安装模型，根据你的硬件配置选择合适的模型下载并安装。

Linux中，Ollama默认的模型路径为：

/usr/share/ollama/.ollama/models

部分配置可能使用 ~/.ollama/models

官网有模型列表：https://ollama.com/library 已经按照流行度排序。

使用pull命令，可以拉取对应的模型，run命令可以运行模型（当本地没有对应模型的时候执行run，会自动先拉取。）

查看本地已安装的模型：

ollama list

拉取运行模型

ollama pull 模型名:版本
ollama run 模型名:版本

例如

ollama pull deepseek-r1:8b

如果你的硬件不是特别的宽裕，或者只是纯CPU推理的话，建议先尝试轻量级的模型：

ollama run phi3:3.8b

在没有GPU的情况下，如果内存低于16G，就选择7b参数以下模型，如果内存大于16G并且CPU核心数在16个以上就可以部署12b模型了，使用以下命令可以查看CPU核数和内存大小

nproc
free -h

其他模型：

谷歌的gemma3安装：

ollama pull gemma3:4b

DeepSeek的deepseek-r1安装：

ollama pull deepseek-r1:7b

Meta的llama-3.2安装：

ollama pull llama3.2:3b

阿里的qwen2.5安装：

ollama pull qwen2.5:7b

安装OpenWebUI

安装docker

apt install podman-docker
apt install docker.io

启动docker

systemctl start docker
systemctl enable docker

关联Ollama启动WebUI

sudo docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui1 --restart always ghcr.io/open-webui/open-webui:main

等待容器启动成功，依据硬件配置所需时间不等。

如果成功的话，使用ollama所在服务器的IP地址加端口8080，就可以打开Chat界面

例如 192.168.2.123:8080

如果需要外网访问的话，做反向代理到443端口即可。

后话

#ollama