Duke Yin's Technology database

安装私有语言聊天大模型平台Ollama

Ollama是一个开源大语言模型,可以作为后端 运行不同的LLM。

安装Ollama

我的服务器系统是Linux Debian 所以使用Ollama官方的一条命令就能安装:

curl -fsSL https://ollama.com/install.sh | sh

Mac和Windows参考官网: https://ollama.com/download/

过程中会连接github,下载ollama-linux-amd64.tgz,大约1.78g

安装完成后,会提示在本地 127.0.0.1:11434 运行了ollama实例。

测试ollama是否已经安装成功:

ollama -v

如果输出版本信息,则说明安装成功。

配置文件默认存在于: /etc/systemd/system/ollama.service

可以使用你熟悉的文本编辑工具进行编辑修改。

如果你的WebUI和Ollama位于不同的服务器,或者要使用第三方工具调用Ollama,需要远程访问Ollama的API的话,需要在配置的service处增加一条:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

如果指定使用某GPU的话,需要增加:

Environment="OLLAMA_DEVICE=cuda"
Environment="CUDA_VISIBLE_DEVICES=0" 

然后重载并重启Ollama

sudo systemctl daemon-reload
sudo systemctl restart ollama

如果在Ollama本机安装WebUI则不用,暴露外网会增加服务器资源被盗用的风险。

附录Ollama常用环境变量:

参数标识与配置
OLLAMA_MODELS表示模型文件的存放目录,默认目录为当前用户目录即 C:\Users%username%.ollama\models
Windows 系统 建议不要放在C盘,可放在其他盘(如 E:\ollama\models
OLLAMA_HOST表示ollama 服务监听的网络地址,默认为127.0.0.1
如果想要允许其他电脑访问 Ollama(如局域网中的其他电脑),建议设置成 0.0.0.0,如果只允许局域网,建议设置为本机的局域网IP,例如 192.168.2.100
OLLAMA_PORT表示ollama 服务监听的默认端口,默认为11434
如果端口有冲突,可以修改设置成其他端口(如8080等)
OLLAMA_ORIGINS表示HTTP 客户端的请求来源,使用半角逗号分隔列表
如果本地使用不受限制,可以设置成星号 *
OLLAMA_KEEP_ALIVE表示大模型加载到内存中后的存活时间,默认为5m即 5 分钟
(如纯数字300 代表 300 秒,0 代表处理请求响应后立即卸载模型,任何负数则表示一直存活)
建议设置成 24h ,即模型在内存中保持 24 小时,提高访问速度
OLLAMA_NUM_PARALLEL表示请求处理的并发数量,默认为1 (即单并发串行处理请求)
建议按照实际需求进行调整
OLLAMA_MAX_QUEUE表示请求队列长度,默认值为512
建议按照实际需求进行调整,超过队列长度的请求会被抛弃
OLLAMA_DEBUG表示输出 Debug 日志,应用研发阶段可以设置成1 (即输出详细日志信息,便于排查问题)
OLLAMA_MAX_LOADED_MODELS表示最多同时加载到内存中模型的数量,默认为1 (即只能有 1 个模型在内存中)

常用命令:

ollama list	#查看已安装的模型
ollama ps	#查看正在运行的模型
ollama stop <model>	#停止某个模型
ollama rm <model>	#删除某个模型

创建用户和组

sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo chown -R ollama:ollama /usr/share/ollama

重载并重启服务

sudo systemctl daemon-reload
sudo systemctl enable --now ollama.service
sudo systemctl status ollama.service

启动ollama

sudo systemctl start ollama

查看ollama服务状态

sudo systemctl status ollama

安装模型

Ollama只是一个平台,要实现AI聊天或者图文生成,需要安装模型,根据你的硬件配置选择合适的模型下载并安装。

Linux中,Ollama默认的模型路径为:

/usr/share/ollama/.ollama/models

部分配置可能使用 ~/.ollama/models

官网有模型列表:https://ollama.com/library 已经按照流行度排序。

使用pull命令,可以拉取对应的模型,run命令可以运行模型(当本地没有对应模型的时候执行run,会自动先拉取。)

查看本地已安装的模型:

ollama list

拉取 运行模型

ollama pull 模型名:版本
ollama run 模型名:版本

例如

ollama pull deepseek-r1:8b

如果你的硬件不是特别的宽裕,或者只是纯CPU推理的话,建议先尝试轻量级的模型:

ollama run phi3:3.8b

在没有GPU的情况下,如果内存低于16G,就选择7b参数以下模型,如果内存大于16G并且CPU核心数在16个以上就可以部署12b模型了,使用以下命令可以查看CPU核数和内存大小

nproc
free -h

其他模型:

谷歌的gemma3安装:

ollama pull gemma3:4b

DeepSeek的deepseek-r1安装:

ollama pull deepseek-r1:7b

Meta的llama-3.2安装:

ollama pull llama3.2:3b

阿里的qwen2.5安装:

ollama pull qwen2.5:7b

安装OpenWebUI

安装docker

apt install podman-docker
apt install docker.io

启动docker

systemctl start docker
systemctl enable docker

关联Ollama启动WebUI

sudo docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui1 --restart always ghcr.io/open-webui/open-webui:main

等待容器启动成功,依据硬件配置所需时间不等。

如果成功的话,使用ollama所在服务器的IP地址加端口8080,就可以打开Chat界面

例如 192.168.2.123:8080

如果需要外网访问的话,做反向代理到443端口即可。

后话

发布评论

评论

标注 * 的为必填项。