本地大模型部署

password
icon
AI summary
type
status
date
slug
summary
tags
category
 
notion image

1. 下载、安装、配置Ollama

有两种方式,裸机部署和docer部署,docker相对来说简单点,但网络问题不好解决。
以下采用裸机部署方案(Linux):
 
命令行一键下载和安装:
 
如果没有报错,它会提示你 ollama 的默认配置文件地址:
 
修改默认配置,配置文件在:/etc/systemd/system/ollama.service,采用任意编辑器打开,推荐 vim
  • 默认只能本地访问,如果需要局域网内其他机器也能访问(比如嵌入式设别要访问本地电脑),需要对 HOST 进行配置,开启监听任何来源IP
  • 模型默认放在 /usr/share/ollama/.ollama/models,如果需要更改模型存放位置,方便管理,需要对 OLLAMA_MODELS 进行配置:
配置完需要确保确保 ollama 用户有权限访问 /data/ollama/models 目录:
  • 如果有多张 GPU,可以对 CUDA_VISIBLE_DEVICES 配置,指定运行的 GPU,默认使用多卡。
  • 每次修改配置文件后都要重新加载:
  • 查看ollama运行状态:
    • 使用命令查看:sudo systemctl status ollama
    • 打开11434端口的防火墙后,然后浏览器打开 http://your_ip:11434/,如果出现 Ollama is running,说明服务已经成功运行。

2. 用Ollama下载模型

可以在ollama模型库查看可用模型:https://ollama.com/library/
notion image
以谷歌的gemma3模型为例,运行ollama run gemma3:27b 即可开始下载并运行模型。
默认5分钟没有使用就会自动退出,从显存里清空模型,这里可以指定一个参数 --keepalive 2562047h47m16.854775807s 可以让模型持续启动。
停止模型的命令:ollama stop gemma3:27b
其它ollama相关命令可以参考:https://www.runoob.com/ollama/ollama-commands.html
 
由于默认情况下,ollama是从自己官方网站上下载模型,速度很慢,为了加速模型下载,最好配置一个国内镜像。
notion image
到这就可以命令行交互了。
 
如果需要增强交互体验,可以使用Open-WebUI在网页上进行交互。

3. Open-WebUI下载安装

Open-WebUI可以通过docker下载,
按照官方README,运行一个带GPU支持的open-webui,
其中:--add-host=host.docker.internal:host-gateway 是为了添加一个主机名映射,将 host.docker.internal 指向宿主机的网关,方便容器访问宿主机服务
这里如果报https相关的tls错误,是因为docker代理没配置好(Linux走的代理上网)。
notion image
编辑 Docker 代理配置:
如果有配置代理,将 HTTPS_PROXY 改为 HTTP(强制降级):
重启 Docker:
访问3000端口就可以网页对话啦
notion image
  • 停止容器:docker stop open-webui
  • 重新启动:docker start open-webui

4. 使用Cherry Studio

填入上面配置好的API地址即可,更加方便快捷。
notion image

参考

 
上一篇
AI辅助编程:Cursor、RooCode、Github Copilot等初体验
下一篇
OpenMind开源实习总结
Loading...