OpenAI 开源模型 gpt-oss 本地部署详细教程

OpenAI 最近发布了其首个开源的开放权重模型gpt-oss,这在AI圈引起了巨大的轰动。对于广大开发者和AI爱好者来说,这意味着我们终于可以在自己的机器上,完全本地化地运行和探索这款强大的模型了。

本教程将一步一步指导你如何在Windows和Linux系统上,借助极其便捷的本地大模型运行框架Ollama,轻松部署和使用 gpt-oss 模型。

一、准备工作:系统配置与性能预期

在开始之前,了解运行环境非常重要。本次部署将在我个人电脑上进行,下面是推荐配置:

  • CPU: 现代多核 CPU,如 Intel Core i7 或 AMD Ryzen 7 系列
  • 内存 (RAM): 32 GB 或更多
  • 显卡 (GPU): 强烈推荐 NVIDIA GeForce RTX 4090 (24 GB 显存)。这是确保大型模型流畅运行与高效微调的理想选择。
  • 操作系统: Linux 或 Windows 11
  • Python 版本: 推荐 3.12

性能预期
在我自己电脑的配置下,运行 gpt-oss-20b 这样中等规模的模型,响应速度比较慢生成一段较长文本可能需要几十秒甚至更久。但这完全可用功能测试、学习和轻度使用。如果你的显卡性能更强 (如RTX 5090, 4090),体验会流畅很多。当然我自己电脑的性能要差点

在这里插入图片描述

二、了解 gpt-oss 模型

gpt-oss 是 OpenAI 发布的开放权重语言模型,截止到2025年8月8日,提供了 gpt-oss-120bgpt-oss-20b 两个版本。它旨在支持开发者在各种硬件上进行研究和创新

官方 GitHub 仓库: https://github.com/openai/gpt-oss

在这里插入图片描述

三、安装 Ollama:本地部署的神器

Ollama 是一个开源框架,它极大地简化了在本地运行 Llama, Mistral, Gemma 以及现在 gpt-oss大模型过程

1. 访问 Ollama 官网并下载

打开浏览器,访问 Ollama 官网。你会看到一个简洁的界面,邀请你与开源模型一起对话和构建

在这里插入图片描述

点击 “Download” 按钮后,页面会自动跳转下载选择页面。

2. 选择操作系统

Ollama 支持 macOS, Linux 和 Windows。我们选择 Windows

在这里插入图片描述

3. 安装 Ollama

下载完成后,运行安装程序。安装过程非常简单,基本就是一路“下一步”

在这里插入图片描述
安装完成后,Ollama 会在你的系统托盘以后台服务的形式运行。

四、拉取并运行 gpt-oss 模型

Ollama 的命令行操作与 Docker 非常相似,主要使用 pullrun 命令。

1. 打开终端

打开你的Windows PowerShell命令提示符 (CMD)

2. 拉取 (Pull) 模型

gpt-oss 有多个版本,我们这里以对硬件要求稍低20b 版本为例。执行以下命令:

ollama pull gpt-oss:20b

这个过程会下载模型文件,根据你的网络速度,可能需要一些时间

3. 运行 (Run) 模型

下载完成后,运行模型进行交互:

ollama run gpt-oss:20b

在这里插入图片描述

五、与 gpt-oss 模型交互

1. 基础对话

运行 ollama run 命令后,你就可以直接在终端输入问题并与模型对话了。我们来问一个经典问题:“你是谁?”
在这里插入图片描述

注意:模型的回答中提到了 “ChatGPT”,这可能是因为 gpt-oss训练数据基础架构与ChatGPT有很深的渊源。

2.使用 Ollama 桌面应用 GUI

除了命令行,Ollama 也提供了一个简洁的桌面应用

  • 安装Ollama后,它通常会自动启动
  • 你可以在主界面下拉菜单中,选择你已经 pull 下来的模型 (如 gpt-oss:20b),然后直接开始对话。

在这里插入图片描述
在这里插入图片描述

3.创建你的 Ollama Hub 个人资料

登录 Ollama 官网后,你可以创建并编辑你的个人资料。这是分享自定义的模型 (Modelfiles) 和参与社区第一步

在这里插入图片描述

4. 代码生成
gpt-oss代码能力还可以。我们可以让它尝试写一个pygame游戏。

在这里插入图片描述
在这里插入图片描述

3. 联网搜索功能
一个令人惊喜的功能是,gpt-oss 在 Ollama 中可以联网!但这需要你先在 Ollama Hub 上创建并登录你的账户。

登录后,当你提出一个需要实时信息的问题时,模型会自动触发搜索功能。

在这里插入图片描述

六、在 Ubuntu上部署及使用 Web 客户端

对于Linux用户,特别是作为服务器使用时,命令行是基础,但搭建一个功能强大的Web界面能提供更好的体验

1. 在 Ubuntu 上安装 Ollama

在Ubuntu上安装Ollama极其简单,官方提供了一键安装脚本。打开你的终端,执行以下命令:

curl -fsSL https://ollama.com/install.sh | sh

脚本会自动下载Ollama二进制文件,并将其设置为一个 systemd 后台服务。安装完成后,Ollama服务会自动启动。你可以通过 systemctl status ollama 验证其运行状态。

2. 拉取并运行模型 (命令行)

与Windows完全相同,在Ubuntu终端中执行:

ollama pull gpt-oss:20b
ollama run gpt-oss:20b

3. 搭建Web客户端:Open WebUI

Open WebUI 是一个非常流行的、与Ollama完美兼容开源Web客户端

a. 安装 Docker
Open WebUI 最简单的部署方式是使用Docker。如果你的系统尚未安装Docker,请执行:

apt-get update
apt-get install -y docker.io
# 启动并设置开机自启
systemctl start docker
systemctl enable docker

b. 运行 Open WebUI 容器
执行以下命令来下载并运行 Open WebUI 容器:

docker run -d --network=host -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

命令解析:

  • -d: 后台运行容器。
  • --network=host: 让容器共享主机的网络,这样WebUI可以轻松访问在本机 11434 端口运行的Ollama服务。
  • -v open-webui:/app/backend/data: 挂载一个数据卷,用于持久化WebUI的用户数据和配置。
  • --name open-webui: 给容器命名
  • --restart always: 确保Docker服务重启时,该容器也会自动启动

c. 访问并使用 Open WebUI

  • 在你的浏览器中,访问 http://<你的Ubuntu服务器IP>:8080 (Open WebUI 默认使用8080端口)。
  • 首次访问时,你需要注册一个管理员账户。
  • 登录后,你就可以在界面上选择已经拉取到本地的 gpt-oss:20b 模型,并开始对话了!

总结

通过本教程,我们成功地一台普通的Windows电脑上,使用 Ollama 轻松部署了OpenAI的gpt-oss模型。同时,我们也学习了如何在Ubuntu环境下完成同样的部署,并额外搭建了一个功能强大Open WebUI 客户端。我们体验了它的基础对话代码生成乃至联网搜索强大功能。虽然在中端硬件性能有限,但这无疑为广大AI爱好者和开发者打开了一扇探索前沿大模型的大门


Q&A 问答环节

1. 问:为什么模型在我电脑上运行这么慢?
答: 模型运行速度主要取决GPU性能和显存gpt-oss-20b 是一个有200亿参数的模型,对资源要求较高。在RTX 3050这样的入门级/中端显卡上,推理速度自然会比较慢。Ollama会自动利用你的GPU,但如果显存不足,部分模型层会加载到CPU和内存中,进一步拖慢速度。

2. 问:除了gpt-oss,我还能用Ollama运行哪些模型?
答: 非常多!Ollama支持目前几乎所有主流的开源模型,例如 Google 的 Gemma,Meta 的 Llama 3,Mistral AI 的 Mistral 等。你可以在Ollama官网的 “Models” 页面查看完整的模型库。

3. 问:联网搜索功能是如何实现的?需要额外配置吗?
答: 这是 gpt-oss 模型本身在Ollama框架下集成的功能,可能利用了类似工具调用 (Tool Calling)函数调用 (Function Calling) 的机制。当你提出需要外部信息的问题时,模型会自动调用一个内置的搜索工具。除了登录Ollama Hub账户外,通常不需要你进行额外配置

4. 问:如果我没有NVIDIA显卡,还能运行吗?
答: 可以。Ollama支持纯CPU运行。它会自动检测你是否有兼容的GPU,如果没有,它会完全使用你的CPU和系统内存来运行模型。当然,纯CPU运行的速度会比GPU慢得多

5. 问:我可以微调或定制 gpt-oss 模型吗?
答: 可以。这正是开放权重模型魅力所在。你可以使用自己的数据集对模型进行微调 (fine-tuning)。在Ollama中,你还可以通过编写 Modelfile定制模型的系统提示词 (System Prompt)参数等,然后构建一个属于你自己的新模型版本

6. 问:如何查看我的 Open WebUI 容器的日志 (Ubuntu)?
答: 如果Open WebUI无法启动出现问题,你可以使用Docker命令查看其日志排查错误。在终端中执行:

docker logs open-webui

如果你想实时跟踪日志,可以加上 -f 选项:docker logs -f open-webui

在这里插入图片描述

日期:2025年8月8日
专栏:开源模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/93231.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/93231.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣-5.最长回文子串

题目链接 5.最长回文子串 class Solution {public String longestPalindrome(String s) {boolean[][] dp new boolean[s.length()][s.length()];int maxLen 0;String str s.substring(0, 1);for (int i 0; i < s.length(); i) {dp[i][i] true;}for (int len 2; len …

Apache Ignite超时管理核心组件解析

这是一个非常关键且设计精巧的 定时任务与超时管理组件 —— GridTimeoutProcessor&#xff0c;它是 Apache Ignite 内核中负责 统一调度和处理所有异步超时事件的核心模块。&#x1f3af; 一、核心职责统一管理所有需要“在某个时间点触发”的任务或超时逻辑。它相当于 Ignite…

DAY 42 Grad-CAM与Hook函数

知识点回顾回调函数lambda函数hook函数的模块钩子和张量钩子Grad-CAM的示例# 定义一个存储梯度的列表 conv_gradients []# 定义反向钩子函数 def backward_hook(module, grad_input, grad_output):# 模块&#xff1a;当前应用钩子的模块# grad_input&#xff1a;模块输入的梯度…

基于 NVIDIA 生态的 Dynamo 风格分布式 LLM 推理架构

网罗开发&#xff08;小红书、快手、视频号同名&#xff09;大家好&#xff0c;我是 展菲&#xff0c;目前在上市企业从事人工智能项目研发管理工作&#xff0c;平时热衷于分享各种编程领域的软硬技能知识以及前沿技术&#xff0c;包括iOS、前端、Harmony OS、Java、Python等方…

《吃透 C++ 类和对象(中):拷贝构造函数与赋值运算符重载深度解析》

&#x1f525;个人主页&#xff1a;草莓熊Lotso &#x1f3ac;作者简介&#xff1a;C研发方向学习者 &#x1f4d6;个人专栏&#xff1a; 《C语言》 《数据结构与算法》《C语言刷题集》《Leetcode刷题指南》 ⭐️人生格言&#xff1a;生活是默默的坚持&#xff0c;毅力是永久的…

Python 环境隔离实战:venv、virtualenv 与 conda 的差异与最佳实践

那天把项目部署到测试环境&#xff0c;结果依赖冲突把服务拉崩了——本地能跑&#xff0c;线上不能跑。折腾半天才发现&#xff1a;我和同事用的不是同一套 site-packages&#xff0c;版本差异导致运行时异常。那一刻我彻底明白&#xff1a;虚拟环境不是可选项&#xff0c;它是…

[ 数据结构 ] 时间和空间复杂度

1.算法效率算法效率分析分为两种 : ①时间效率, ②空间效率 时间效率即为 时间复杂度 , 时间复杂度主要衡量一个算法的运行速度空间效率即为 空间复杂度 , 空间复杂度主要衡量一个算法所需要的额外空间2.时间复杂度2.1 时间复杂度的概念定义 : 再计算机科学中 , 算法的时间复杂…

一,设计模式-单例模式

目的设计单例模式的目的是为了解决两个问题&#xff1a;保证一个类只有一个实例这种需求是需要控制某些资源的共享权限&#xff0c;比如文件资源、数据库资源。为该实例提供一个全局访问节点相较于通过全局变量保存重要的共享对象&#xff0c;通过一个封装的类对象&#xff0c;…

AIStarter修复macOS 15兼容问题:跨平台AI项目管理新体验

AIStarter是全网唯一支持Windows、Mac和Linux的AI管理平台&#xff0c;为开发者提供便捷的AI项目管理体验。近期&#xff0c;熊哥在视频中分享了针对macOS 15系统无法打开AIStarter的修复方案&#xff0c;最新版已完美兼容。本文基于视频内容&#xff0c;详解修复细节与使用技巧…

LabVIEW 纺织检测数据传递

基于 LabVIEW 实现纺织检测系统中上位机&#xff08;PC 机&#xff09;与下位机&#xff08;单片机&#xff09;的串口数据传递&#xff0c;成功应用于煮茧机温度测量系统。通过采用特定硬件架构与软件设计&#xff0c;实现了温度数据的高效采集、传输与分析&#xff0c;操作简…

ECCV-2018《Variational Wasserstein Clustering》

核心思想 该论文提出了一个基于最优传输(optimal transportation) 理论的新型聚类方法&#xff0c;称为变分Wasserstein聚类(Variational Wasserstein Clustering, VWC)。其核心思想有三点&#xff1a;建立最优传输与k-means聚类的联系&#xff1a;作者指出k-means聚类问题本质…

部署 Docker 应用详解(MySQL + Tomcat + Nginx + Redis)

文章目录一、MySQL二、Tomcat三、Nginx四、Redis一、MySQL 搜索 MySQL 镜像下载 MySQL 镜像创建 MySQL 容器 docker run -i -t/d -p 3307:3306 --namec_mysql -v $PWD/conf:/etc/mysql/conf.d -v $PWD/logs:/logs -v $PWD/data:/var/lib/mysql -e MYSQL_ROOT_PASSWORD123456 m…

VR全景导览在大型活动中的应用实践:优化观众体验与现场管理

大型演出赛事往往吸引海量观众&#xff0c;但复杂的场馆环境常带来诸多困扰&#xff1a;如何快速找到座位看台区域&#xff1f;停车位如何规划&#xff1f;附近公交地铁站在哪&#xff1f;这些痛点直接影响观众体验与现场秩序。VR全景技术为解决这些问题提供了有效方案。通过在…

OpenJDK 17 JIT编译器堆栈分析

##堆栈(gdb) bt #0 PhaseOutput::safepoint_poll_table (this0x7fffd0bfb950) at /home/yym/openjdk17/jdk17-master/src/hotspot/share/opto/output.hpp:173 #1 0x00007ffff689634e in PhaseOutput::fill_buffer (this0x7fffd0bfb950, cb0x7fffd0bfb970, blk_starts0x7fffb0…

功能测试中常见的面试题-二

二、测试设计与用例编写题解释等价类划分 (Equivalence Partitioning) 和边界值分析 (Boundary Value Analysis)&#xff1f;并举例说明。等价类划分 (EP)&#xff1a; 将输入域划分为若干组&#xff08;等价类&#xff09;&#xff0c;假设同一组内的数据对揭露程序错误具有等…

SOLi-LABS Page-4 (Challenges)--54-65关

sql-54 翻译一下页面&#xff0c;得知我们只有十次机会。id参数是单引号闭合。 ?id-1 union select 1,group_concat(table_name),3 from information_schema.tables where table_schemadatabase()-- 我得到的表名是igsyiz2p7z。&#xff08;每个人得到的应该都不一样&#…

docker代码如何在vscod上修改

基于 docker-compose.yml文件&#xff08;包含 ​​emqx​​&#xff08;MQTT服务&#xff09;、​​backend​​&#xff08;后端服务&#xff09;、​​mysql​​&#xff08;数据库&#xff09;&#xff09;的详细运行、调试、增改删操作说明&#xff0c;结合流程图示意&…

HTML5 CSS3 从入门到精通:构建现代Web的艺术与科学

本文将带你系统地学习掌握现代Web前端的基础与核心&#xff0c;最终能够独立构建语义清晰、布局灵活、交互丰富的专业级网站。 第一章&#xff1a;夯实基础 - HTML5语义化与结构艺术 1.1 告别<div>混沌&#xff1a;语义化标签的力量 <header><h1>网站标题…

C# 微软依赖注入 (Microsoft.Extensions.DependencyInjection) 详解

文章目录 前言 核心原理 三大生命周期 核心接口与类 基础使用示例 关键特性详解 1、构造函数注入 2、作用域管理 3、服务解析方法 4、延迟加载 常见问题解决 问题1:循环依赖 问题2:多实现选择 性能优化技巧 扩展方法示例 前言 微软的依赖注入框架是 .NET Core/5+ 的核心组件…

【车联网kafka】Kafka核心架构与实战经验(第四篇)

一、社团扛把子不为人知的秘密 香港社团里&#xff0c;Kafka 是整个组织的名号&#xff0c;ZooKeeper 就是说一不二的长老团&#xff0c;各个片区的 “话事人” 就是 broker&#xff0c;而能统领所有片区的 “扛把子”&#xff0c;就是 Kafka 里的控制器。​ 1.1 选举的秘密 每…