本地大模型部署
password
icon
AI summary
type
status
date
slug
summary
tags
category

1. 下载、安装、配置Ollama
有两种方式,裸机部署和docer部署,docker相对来说简单点,但网络问题不好解决。
以下采用裸机部署方案(Linux):
命令行一键下载和安装:
如果没有报错,它会提示你 ollama 的默认配置文件地址:
修改默认配置,配置文件在:
/etc/systemd/system/ollama.service
,采用任意编辑器打开,推荐 vim
。- 默认只能本地访问,如果需要局域网内其他机器也能访问(比如嵌入式设别要访问本地电脑),需要对 HOST 进行配置,开启监听任何来源IP
- 模型默认放在
/usr/share/ollama/.ollama/models
,如果需要更改模型存放位置,方便管理,需要对 OLLAMA_MODELS 进行配置:
配置完需要确保确保
ollama
用户有权限访问 /data/ollama/models
目录:- 如果有多张 GPU,可以对 CUDA_VISIBLE_DEVICES 配置,指定运行的 GPU,默认使用多卡。
- 每次修改配置文件后都要重新加载:
- 查看ollama运行状态:
- 使用命令查看:
sudo systemctl status ollama
- 打开11434端口的防火墙后,然后浏览器打开
http://your_ip:11434/
,如果出现Ollama is running
,说明服务已经成功运行。
2. 用Ollama下载模型
可以在ollama模型库查看可用模型:https://ollama.com/library/

以谷歌的gemma3模型为例,运行
ollama run gemma3:27b
即可开始下载并运行模型。默认5分钟没有使用就会自动退出,从显存里清空模型,这里可以指定一个参数
--keepalive 2562047h47m16.854775807s
可以让模型持续启动。停止模型的命令:
ollama stop gemma3:27b
,其它ollama相关命令可以参考:https://www.runoob.com/ollama/ollama-commands.html
由于默认情况下,ollama是从自己官方网站上下载模型,速度很慢,为了加速模型下载,最好配置一个国内镜像。

到这就可以命令行交互了。
如果需要增强交互体验,可以使用Open-WebUI在网页上进行交互。
3. Open-WebUI下载安装
Open-WebUI可以通过docker下载,
按照官方README,运行一个带GPU支持的open-webui,
其中:
--add-host=host.docker.internal:host-gateway
是为了添加一个主机名映射,将 host.docker.internal 指向宿主机的网关,方便容器访问宿主机服务
这里如果报https相关的tls错误,是因为docker代理没配置好(Linux走的代理上网)。

编辑 Docker 代理配置:
如果有配置代理,将
HTTPS_PROXY
改为 HTTP(强制降级):重启 Docker:
访问3000端口就可以网页对话啦

- 停止容器:
docker stop open-webui
- 重新启动:
docker start open-webui
4. 使用Cherry Studio
填入上面配置好的API地址即可,更加方便快捷。

参考
上一篇
AI辅助编程:Cursor、RooCode、Github Copilot等初体验
下一篇
OpenMind开源实习总结
Loading...