# Python 语音助手本地的ollama实现

在这里插入图片描述

项目简介

本项目是一个基于 Python 的智能语音助手,集成了语音录制、语音识别、AI对话和语音合成功能。用户可以通过语音与本地部署的 Ollama 大模型进行自然对话。

技术架构

核心功能模块

  1. 语音录制 - 使用 sounddevice 录制用户语音
  2. 语音识别 - 使用 faster-whisper 将语音转换为文本
  3. AI对话 - 与本地 Ollama 模型进行文本对话
  4. 语音合成 - 使用 edge-tts 将AI回复转换为语音并播放

工作流程

用户语音输入 → 录音 → 语音识别 → AI对话 → 语音合成 → 语音播放

环境准备

1. 安装必需的 Python 包

# 音频处理相关
pip install sounddevice soundfile pyaudio# 语音识别
pip install faster-whisper# HTTP请求
pip install requests# 语音合成(可选,如果使用edge-tts)
pip install edge-tts

2. 系统依赖

Windows 系统
# 使用 Chocolatey 安装 FFmpeg(推荐)
choco install ffmpeg# 或者手动下载 FFmpeg 并添加到系统 PATH
# 下载地址:https://ffmpeg.org/download.html
Linux/macOS 系统
# Ubuntu/Debian
sudo apt update
sudo apt install ffmpeg# macOS
brew install ffmpeg

3. Ollama 模型部署

# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh# 拉取模型(选择其中一个)
ollama pull yi:9b
# 或者
ollama pull llama3-8b# 启动 Ollama 服务
ollama serve

核心代码实现

完整源代码

import subprocess
import sounddevice as sd
import soundfile as sf
from faster_whisper import WhisperModel
import requestsOLLAMA_MODEL = "yi:9b"  # 或者 llama3-8b,已在 Ollama 里拉取好的模型# 录音函数,录制音频并保存为 input.wav
def record_audio(filename="input.wav", duration=5, fs=16000):print("🎤 正在录音,请开始说话...")audio = sd.rec(int(duration * fs), samplerate=fs, channels=1)sd.wait()sf.write(filename, audio, fs)print("✅ 录音完成")# 语音识别函数,调用 WhisperModel 将音频转为文本
def transcribe_whisper(filename="input.wav"):print("🧠 Whisper 正在识别语音...")model = WhisperModel("medium", compute_type="int8")segments, _ = model.transcribe(filename, beam_size=5)text = "".join([seg.text for seg in segments])print(f"📝 识别结果:{text}")return text# 与 Ollama 大模型对话,获取回复
def chat_with_ollama(prompt):print("💬 发送给 Ollama 中...")response = requests.post("http://ollama.jjsos.cn/api/generate", json={"model": OLLAMA_MODEL,"prompt": prompt,"stream": False})answer = response.json()["response"]print(f"🤖 Ollama 回复:{answer}")return answer# 语音合成与播放,将文本转为语音并播放
def speak_text(text, output="reply.wav"):"""文本转语音并播放"""print("🔊 正在生成语音...")try:# 直接使用 edge-tts 命令,避免 echo 管道问题tts_command = ["edge-tts", "--text", text, "--voice", "zh-CN-XiaoxiaoNeural", "--write-media", output]result = subprocess.run(tts_command, capture_output=True, text=True)# 检查命令是否成功执行if result.returncode != 0:print(f"❌ 语音合成失败: {result.stderr}")return# 检查文件是否存在import osif not os.path.exists(output):print(f"❌ 音频文件 {output} 未生成")returnprint("🔈 播放中...")subprocess.run(["ffplay", "-nodisp", "-autoexit", output])except Exception as e:print(f"❌ 语音合成或播放出错: {e}")# 主流程:录音 -> 语音识别 -> AI对话 -> 语音合成与播放
if __name__ == "__main__":record_audio()  # 录音user_text = transcribe_whisper()  # 语音转文本reply_text = chat_with_ollama(user_text)  # AI对话speak_text(reply_text)  # 语音合成与播放

功能详解

1. 语音录制模块

def record_audio(filename="input.wav", duration=5, fs=16000):print("🎤 正在录音,请开始说话...")audio = sd.rec(int(duration * fs), samplerate=fs, channels=1)sd.wait()sf.write(filename, audio, fs)print("✅ 录音完成")

技术要点:

  • 使用 sounddevice 进行实时音频录制
  • 采样率设置为 16kHz,单声道录制
  • 默认录制时长 5 秒
  • 使用 soundfile 保存为 WAV 格式

2. 语音识别模块

def transcribe_whisper(filename="input.wav"):print("🧠 Whisper 正在识别语音...")model = WhisperModel("medium", compute_type="int8")segments, _ = model.transcribe(filename, beam_size=5)text = "".join([seg.text for seg in segments])print(f"📝 识别结果:{text}")return text

技术要点:

  • 使用 faster-whisper 库,比原版 Whisper 更快
  • 选择 “medium” 模型,平衡准确性和速度
  • compute_type="int8" 量化加速,减少内存占用
  • beam_size=5 提高识别准确率

3. AI对话模块

def chat_with_ollama(prompt):print("💬 发送给 Ollama 中...")response = requests.post("http://localhost:11434/api/generate", json={"model": OLLAMA_MODEL,"prompt": prompt,"stream": False})answer = response.json()["response"]print(f"🤖 Ollama 回复:{answer}")return answer

技术要点:

  • 通过 HTTP API 与 Ollama 服务通信(支持本地或远程部署)
  • 支持多种模型:yi:9b、llama3-8b 等
  • stream=False 获取完整回复
  • 可配置本地部署(http://localhost:11434)或远程服务

4. 语音合成模块

def speak_text(text, output="reply.wav"):print("🔊 正在生成语音...")tts_command = f"echo '{text}' | edge-tts --voice zh-CN-XiaoxiaoNeural --write-media {output}"subprocess.run(tts_command, shell=True)print("🔈 播放中...")subprocess.run(["ffplay", "-nodisp", "-autoexit", output])

技术要点:

  • 使用 Microsoft Edge TTS 引擎
  • 选择中文女声 “zh-CN-XiaoxiaoNeural”
  • 使用 FFplay 播放生成的音频文件
  • 支持多种语音选择

使用说明

1. 启动准备

# 1. 确保 Ollama 服务运行
ollama serve# 2. 运行语音助手
python v.py

2. 交互流程

  1. 程序启动后自动开始录音(5秒)
  2. 录音结束后进行语音识别
  3. 识别结果发送给 Ollama 模型
  4. AI 回复转换为语音并播放

性能优化建议

1. Whisper 模型选择

模型大小内存占用识别速度准确率
tiny~39MB最快较低
base~74MB中等
small~244MB中等良好
medium~769MB较慢很好
large~1550MB最慢最佳

2. 计算类型优化

# 不同计算类型的性能对比
model = WhisperModel("medium", compute_type="int8")    # 推荐:速度快,内存少
model = WhisperModel("medium", compute_type="float16") # 平衡:中等速度和精度
model = WhisperModel("medium", compute_type="float32") # 最高精度,最慢速度

3. 录音参数调优

# 根据使用场景调整参数
record_audio(duration=3, fs=16000)   # 短对话
record_audio(duration=10, fs=22050)  # 长对话,更高音质

故障排除

常见问题

  1. 录音设备问题

    # 查看可用音频设备
    import sounddevice as sd
    print(sd.query_devices())
    
  2. Ollama 连接失败

    # 检查 Ollama 服务状态
    curl http://localhost:11434/api/tags
    
  3. 语音合成失败

    # 测试 edge-tts
    edge-tts --list-voices | grep zh-CN
    
  4. FFmpeg 播放问题

    # 检查 FFmpeg 安装
    ffplay -version
    

扩展功能

1. 添加唤醒词检测

# 可集成 pvporcupine 实现唤醒词功能
pip install pvporcupine

2. 支持多轮对话

# 添加对话历史管理
conversation_history = []

3. 语音情感识别

# 可集成情感分析库
pip install transformers torch

总结

本项目展示了如何构建一个完整的语音助手系统,涵盖了从语音输入到语音输出的完整链路。通过本地部署的方式,既保证了响应速度,又保护了用户隐私。

项目特点:

  • 🔒 隐私保护:所有处理都在本地完成
  • 响应迅速:优化的模型配置和本地部署
  • 🎯 易于扩展:模块化设计,便于功能扩展
  • 💰 成本低廉:无需调用付费API

适用场景:

  • 个人语音助手
  • 智能家居控制
  • 语音笔记工具
  • 教育辅助工具

希望这个项目能为你的语音AI应用开发提供参考和启发!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/81684.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第1章第1节:安全运维基础思维与体系建设-安全运维的定义与核心目标

🎯 实战目标: 理解“安全运维”与传统运维的本质区别 掌握安全运维的核心目标与价值定位 建立以“持续可控、可视可审、自动响应”为核心的思维框架 📖 背景知识: ✅ 传统运维 vs 安全运维 传统运维关注:系统稳定、…

LNMP 架构部署

目录 一、基于授权的访问控制 (一)功能简介 (二)配置步骤 二、基于客户端的访问控制 (一)功能简介 (二)配置步骤 三、Nginx 虚拟主机 (一)基于域名的…

JVM与JMM深度解析:从Java 8到Java 21的演进

文章目录 第一部分:JVM基础概念与架构JVM是什么?JVM整体架构运行时数据区类加载机制执行引擎 第二部分:Java内存模型(JMM)什么是Java内存模型JMM的核心问题主内存与工作内存内存间交互操作重排序与happens-before原则v…

Docker 挂载卷并保存为容器

1 创建docker容器 使用镜像osrf/ros:humble-desktop-full-jammy创建并运行容器 sudo docker run -it --name ros2_humble osrf/ros:humble-desktop-full-jammy /ros_entrypoint.sh bash docker run -it -v d:\docker\ros2_humble:/root/ros2_ws osrf/ros:humble-desktop-fu…

无人机飞手共享接单平台

2025年,无人机已不再是“黑科技”的代名词。从农田喷洒到外卖配送,从航拍摄影到医疗急救,无人机正以惊人的速度渗透我们的生活。而在这场变革中, “无人机飞手共享接单平台” 成为连接技术与需求的核心枢纽。它不仅让专业飞手轻松…

【Web应用】若依框架:基础篇07功能详解-定时任务

文章目录 ⭐前言⭐一、讲解过程⭐二、动手实操⭐总结 标题详情作者JosieBook头衔CSDN博客专家资格、阿里云社区专家博主、软件设计工程师博客内容开源、框架、软件工程、全栈(,NET/Java/Python/C)、数据库、操作系统、大数据、人工智能、工控、网络、程序…

8.8 Primary ODSA service without ODSA Portal

主要ODSA服务(不使用ODSA门户) 以下场景描述如下情况: • 主ODSA客户端应用程序被允许用于该类型的主设备,且对终端用户启用(已授权)。 • 服务提供商(SP)能够在不涉及ODSA门户Web服…

深度检测与动态透明度控制 - 基于Babylon.js的遮挡检测实现解析

首先贴出实现代码: OcclusionFader.ts import { AbstractEngine, Material, type Behavior, type Mesh, type PBRMetallicRoughnessMaterial, type Scene } from "babylonjs/core"; import { OcclusionTester } from "../../OcclusionTester"…

openssl 使用生成key pem

好的,以下是完整的步骤,帮助你在 Windows 系统中使用 OpenSSL 生成私钥(key)和 PEM 文件。假设你的 openssl.cnf 配置文件位于桌面。 步骤 1:打开命令提示符 按 Win R 键,打开“运行”对话框。输入 cmd&…

音视频之视频压缩及数字视频基础概念

系列文章: 1、音视频之视频压缩技术及数字视频综述 一、视频压缩编码技术综述: 1、信息化与视频通信: 什么是信息: 众所周知,人类社会的三大支柱是物质、能量和信息。具体而言,农业现代化的支柱是物质&…

传统数据表设计与Prompt驱动设计的范式对比:以NBA投篮数据表为例

引言:数据表设计方法的演进 在数据库设计领域,传统的数据表设计方法与新兴的Prompt驱动设计方法代表了两种截然不同的思维方式。本文将以NBA赛季投篮数据表(shots)的设计为例,深入探讨这两种方法的差异、优劣及适用场景。随着AI技术在数据领…

XCTF-web-mfw

发现了git 使用GitHack下载一下源文件&#xff0c;找到了php源代码 <?phpif (isset($_GET[page])) {$page $_GET[page]; } else {$page "home"; }$file "templates/" . $page . ".php";// I heard .. is dangerous! assert("strpos…

Prompt Tuning与自然语言微调对比解析

Prompt Tuning 与输入提示词自然语言微调的区别和联系 一、核心定义与区别 维度Prompt Tuning(提示微调)输入提示词自然语言微调本质优化连续向量空间中的提示嵌入(不可直接阅读)优化离散自然语言文本(人类可理解)操作对象模型输入嵌入层的连续向量(如WordEmbedding)自…

LVS的DR模式部署

目录 一、引言&#xff1a;高并发场景下的流量调度方案 二、LVS-DR 集群核心原理与架构设计 &#xff08;一&#xff09;工作原理与数据流向 数据包流向步骤3&#xff1a; &#xff08;二&#xff09;模式特性与53网络要求 三、实战配置&#xff1a;从9环境搭建到参数调整…

8种常见数据结构及其特点简介

一、8种常见数据结构 1. 数组&#xff08;Array&#xff09; 简介&#xff1a;数组是有序元素的序列&#xff0c;连续内存块存储相同类型元素&#xff0c;通过下标直接访问。数组会为存储的元素都分配一个下标&#xff08;索引&#xff09;&#xff0c;此下标是一个自增连续的…

通过mailto:实现web/html邮件模板唤起新建邮件并填写内容

一、背景 在实现网站、html邮件模板过程中&#xff0c;难免会遇到需要通过邮箱向服务提供方发起技术支持等需求&#xff0c;因此&#xff0c;我们需要通过一个功能&#xff0c;能新建邮件并提供模板&#xff0c;提高沟通效率 二、mailto协议配置说明 参数描述mailto:nameema…

好用但不常用的Git配置

参考文章 文章目录 tag标签分支新仓库默认分支推送 代码合并冲突处理默认diff算法 tag标签 默认是以字母顺序排序&#xff0c;这会导致一些问题&#xff0c;比如0.5.101排在0.5.1000之后。为了解决这个问题&#xff0c;我们可以把默认排序改为数值排序 git config --global t…

第六十八篇 从“超市收银系统崩溃”看JVM性能监控与故障定位实战

目录 引言&#xff1a;当技术问题遇上生活场景一、JVM的“超市货架管理哲学”二、收银员工具箱&#xff1a;JVM监控三板斧三、典型故障诊断实录四、防患于未然的运维智慧五、结语&#xff1a;从故障救火到体系化防控 引言&#xff1a;当技术问题遇上生活场景 想象一个周末的傍…

tauri2项目打开某个文件夹,类似于mac系统中的 open ./

在 Tauri 2 项目中打开文件夹 在 Tauri 2 项目中&#xff0c;你可以使用以下几种方法来打开文件夹&#xff0c;类似于 macOS 中的 open ./ 命令功能&#xff1a; 方法一&#xff1a;使用 shell 命令 use tauri::Manager;#[tauri::command] async fn open_folder(path: Strin…

编译pg_duckdb步骤

1. 要求cmake的版本要高于3.17&#xff0c;可以通过下载最新的cmake的程序&#xff0c;然后设置.bash_profile的PATH环境变量&#xff0c;将最新的cmake的bin目录放到PATH环境变量的最前面 2. g的版本要支持c17标准&#xff0c;否则会报 error ‘invoke_result in namespace ‘…