AVCap视频处理成帧和音频脚本


###############处理原视频，使其格式和原数据一样
import os
import cv2
import subprocess
import json
from PIL import Image
from pydub import AudioSegmentimport sys
import shutil
# === 🔹 第一步：强制检测并设置FFmpeg路径 🔹 ===
def get_ffmpeg_path():"""确保FFmpeg和FFprobe可用"""ffmpeg_path = shutil.which("ffmpeg")ffprobe_path = shutil.which("ffprobe")if not ffprobe_path or not ffmpeg_path:print("❌ 致命错误: FFmpeg未正确安装")print("请按照以下步骤操作：")print("1. 访问 https://github.com/BtbN/FFmpeg-Builds/releases")print("2. 下载 'ffmpeg-master-latest-win64-gpl.zip'")print("3. 解压到 C:\\ffmpeg")print("4. 将 C:\\ffmpeg\\bin 添加到系统PATH变量")print("5. 重启命令行终端")sys.exit(1)# 配置pydub使用正确的路径AudioSegment.converter = ffmpeg_pathreturn ffmpeg_path, ffprobe_pathffmpeg_path, ffprobe_path = get_ffmpeg_path()
print(f"✅ FFmpeg路径: {ffmpeg_path}")
print(f"✅ FFprobe路径: {ffprobe_path}")# === 🔹【设置文件路径】🔹 ===
original_audio_path = "waveforms/7fmOlUlwoNg_20000_30000.wav"  # 原始数据集音频
original_image_path = "frames/frame_0/7fmOlUlwoNg_20000_30000.jpg"  # 原始数据集帧input_video = "lai.mp4"   # 你要处理的视频
output_audio = "waveforms/lai_audio.wav"
frames_dir = "frames"os.makedirs("waveforms", exist_ok=True)
os.makedirs("frames", exist_ok=True)# === 🔹【获取原始数据集格式】🔹 ===
def get_audio_info(audio_path):""" 获取音频的格式信息 """cmd = ["ffprobe", "-i", audio_path, "-show_streams", "-select_streams", "a","-of", "json"]result = subprocess.run(cmd, capture_output=True, text=True)audio_info = json.loads(result.stdout)["streams"][0]return {"sample_rate": int(audio_info["sample_rate"]),  # 采样率"channels": int(audio_info["channels"]),  # 声道数"bit_rate": int(audio_info["bit_rate"]),  # 比特率"duration": float(audio_info["duration"])  # 时长}def get_image_info(image_path):""" 获取图片的格式信息 """img = Image.open(image_path)return {"size": img.size,  # (width, height)"mode": img.mode  # "RGB" / "L" (灰度) / "CMYK" 等}# 获取 **原始数据集** 的格式信息
original_audio_info = get_audio_info(original_audio_path)
original_image_info = get_image_info(original_image_path)print("🎯 原始音频信息:", original_audio_info)
print("🎯 原始图像信息:", original_image_info)# === 🔹【处理音频】🔹 ===
def process_audio(input_audio, output_audio, ref_info):""" 将音频转换为和原始数据集匹配的格式 """audio = AudioSegment.from_file(input_audio)# 转换采样率if audio.frame_rate != ref_info["sample_rate"]:audio = audio.set_frame_rate(ref_info["sample_rate"])# 转换声道if audio.channels != ref_info["channels"]:audio = audio.set_channels(ref_info["channels"])# 转换比特率（pydub 不支持直接修改比特率，但可以调整导出参数）audio.export(output_audio, format="wav", bitrate=str(ref_info["bit_rate"]) + "k")print(f"✅ 音频已转换并保存至 {output_audio}")process_audio(input_video, output_audio, original_audio_info)# === 🔹【处理视频帧】🔹 ===
def extract_frames(video_path, output_dir, ref_info, frame_count=20):""" 从视频中提取均匀分布的 20 帧，并匹配原始格式 """cap = cv2.VideoCapture(video_path)total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))frame_interval = max(total_frames // frame_count, 1)for i in range(frame_count):cap.set(cv2.CAP_PROP_POS_FRAMES, i * frame_interval)success, frame = cap.read()if success:# 统一尺寸frame = cv2.resize(frame, ref_info["size"])# 统一色彩模式if ref_info["mode"] == "L":  # 如果是灰度frame = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)else:  # 默认 RGBframe = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)# 逐帧存入 frame_0 到 frame_19frame_folder = os.path.join(output_dir, f"frame_{i}")os.makedirs(frame_folder, exist_ok=True)frame_path = os.path.join(frame_folder, "lai_frame.jpg")cv2.imwrite(frame_path, frame)cap.release()print(f"✅ 视频帧已提取并存入 {output_dir}")extract_frames(input_video, frames_dir, original_image_info)print("🎉 处理完成！所有格式已匹配 ✅")

直接执行脚本会报错，解决办法