DeepSeek+PiscTrace+YOLO:迅速实现Mask掩码抠图

在计算机视觉任务中,特别是在目标检测和实例分割中,我们常常需要从图像中提取特定的目标区域。这可以通过使用目标检测模型(如 YOLOv8)获得的检测框(bounding boxes)和掩码(masks)来实现。掩码帮助我们从图像中只保留目标区域,同时去除背景。接下来,我们将通过 OpenCV 来实现这一过程,并给出如何处理掩码和图像的具体代码示例。


1. 问题背景

假设我们使用了一个目标检测或实例分割模型(如 YOLOv8),它返回了目标的检测框和掩码。目标是通过掩码来提取图像中的目标区域,而将背景部分隐藏。通常,掩码是一个二值图像,其中目标区域为白色,背景为黑色。我们需要使用这些掩码来处理图像,使得只有检测到的目标部分显示在最终输出中。

  1. 仅在原图上显示掩码覆盖的区域,其余部分设为黑色。


2. 错误原因分析

在处理掩码时,常常会遇到以下几个问题:

  1. 掩码尺寸不匹配:掩码的尺寸可能与输入图像的尺寸不一致。

  2. 掩码维度问题:有时掩码可能包含多余的维度(例如,掩码是三维的,而我们只需要二维掩码)。

  3. bitwise_and 报错:当图像和掩码的尺寸不匹配时,OpenCV 的 bitwise_and 操作会报错。

为了避免这些问题,我们需要确保掩码的尺寸和图像一致,并且掩码是单通道的二值图像。


3. 解决方案

3.1 确保掩码是单通道且尺寸匹配

我们首先需要确保掩码是一个单通道图像,并且它的尺寸与输入图像匹配。以下是如何处理掩码并应用到图像的代码:

import numpy as np
import cv2def apply_mask(image, masks):"""Apply masks to the image, keeping only the masked regions.Args:image (np.ndarray): Input image (H, W, 3).masks (List[np.ndarray]): List of binary masks (H, W).Returns:np.ndarray: Masked image."""if not masks:return image# Initialize combined maskcombined_mask = np.zeros(image.shape[:2], dtype=np.uint8)for mask in masks:# Ensure mask is 2D and uint8mask = mask.astype(np.uint8)if mask.ndim > 2:mask = mask.squeeze()  # Remove extra dimensions# Resize mask if neededif mask.shape != combined_mask.shape:mask = cv2.resize(mask, (image.shape[1], image.shape[0]))# Combine masks (logical OR)combined_mask = cv2.bitwise_or(combined_mask, mask)# Apply mask to each channelmasked_image = np.zeros_like(image)for c in range(image.shape[2]):masked_image[:, :, c] = cv2.bitwise_and(image[:, :, c], image[:, :, c], mask=combined_mask)return masked_image

在这段代码中,我们对每个掩码进行处理:

  • 确保掩码是二维的。

  • 如果掩码的尺寸与输入图像不匹配,则进行缩放。

  • 使用 bitwise_or 合并多个掩码。

  • 最后,我们通过 bitwise_and 将掩码应用到图像的每个通道。

3.2 处理 YOLOv8 的 Results 对象

如果使用的是 YOLOv8(Ultralytics 的目标检测框架),其结果(Results 对象)中的掩码是一个特殊的 Masks 对象,可能需要先将其转换为 NumPy 数组进行处理。以下是如何从 YOLOv8 的 Results 中提取掩码并应用到图像的示例:

from ultralytics import YOLOmodel = YOLO("yolov8n-seg.pt")  # Segmentation model
results = model.predict("input.jpg")# Extract masks
if results[0].masks is not None:masks = results[0].masks.data.cpu().numpy()  # (N, H, W)masked_image = apply_mask(results[0].orig_img, masks)cv2.imwrite("output.jpg", masked_image)

在这段代码中,我们:

  • 使用 model.predict 获取 YOLOv8 的检测结果。

  • 如果检测结果中包含掩码(results[0].masks),则提取掩码并转换为 NumPy 数组。

  • 将掩码应用到原始图像,并保存结果。


4. 完整代码示例

以下是完整的代码示例,结合 YOLOv8 和 OpenCV 进行目标区域提取:

import cv2
import numpy as np
from ultralytics import YOLOdef apply_mask(image, masks):"""Apply masks to the image."""combined_mask = np.zeros(image.shape[:2], dtype=np.uint8)for mask in masks:mask = mask.astype(np.uint8)if mask.ndim > 2:mask = mask.squeeze()if mask.shape != combined_mask.shape:mask = cv2.resize(mask, (image.shape[1], image.shape[0]))combined_mask = cv2.bitwise_or(combined_mask, mask)masked_image = np.zeros_like(image)for c in range(image.shape[2]):masked_image[:, :, c] = cv2.bitwise_and(image[:, :, c], image[:, :, c], mask=combined_mask)return masked_image# Load YOLOv8 segmentation model
model = YOLO("yolov8n-seg.pt")
results = model.predict("input.jpg")# Apply masks
if results[0].masks is not None:masks = results[0].masks.data.cpu().numpy()masked_image = apply_mask(results[0].orig_img, masks)cv2.imwrite("output.jpg", masked_image)

5. 常见问题及解决

Q1: 掩码尺寸和图像不一致怎么办?

如果掩码尺寸与图像不一致,最简单的解决方法是使用 OpenCV 的 cv2.resize 将掩码调整为图像的尺寸。

Q2: bitwise_and 报错 Sizes do not match

这种错误通常发生在掩码和图像尺寸不匹配时。确保掩码的尺寸与图像一致,并且掩码是单通道二值图像。


6. 迅速集成 PiscTrace

如果你在使用 PiscTrace 进行跟踪任务,可以通过以下方式集成掩码应用功能:

import numpy as np
import cv2class Test:def obj_exe(self, im0, tracks):"""Generate heatmap based on tracking data and keep only mask regions in the frame.Args:im0 (ndarray): Image (H, W, C)tracks (list): List of tracks obtained from the object tracking process.Returns:ndarray: Image with only mask regions visible (rest is blacked out)"""self.im0 = im0self.result = tracks[0]# Extract result attributesself.orig_img = self.result.orig_imgself.orig_shape = self.result.orig_img.shape[:2]self.boxes = self.result.boxesself.masks = self.result.masks  # This should be the masks objectself.probs = self.result.probsself.keypoints = self.result.keypointsself.obb = self.result.obbself.speed = self.result.speedself.names = self.result.namesself.path = self.result.path# Process to keep only mask regionsif self.masks is not None:# Initialize combined mask with correct dimensionscombined_mask = np.zeros(self.im0.shape[:2], dtype=np.uint8)for mask in self.masks.data:# Convert mask to numpy array if it isn't alreadymask_np = mask.cpu().numpy() if hasattr(mask, 'cpu') else np.array(mask)# Ensure mask is 2D and matches image dimensionsif mask_np.ndim > 2:mask_np = mask_np.squeeze()  # Remove singleton dimensions# Resize mask if needed (assuming masks might be different size)if mask_np.shape != combined_mask.shape:mask_np = cv2.resize(mask_np.astype(np.uint8), (combined_mask.shape[1], combined_mask.shape[0]))# Combine masks (logical OR)combined_mask = cv2.bitwise_or(combined_mask, mask_np.astype(np.uint8))# Ensure we have a 3-channel image for colorif len(self.im0.shape) == 2:self.im0 = cv2.cvtColor(self.im0, cv2.COLOR_GRAY2BGR)# Apply mask to each channel of the imagemasked_img = np.zeros_like(self.im0)for c in range(self.im0.shape[2]):masked_img[:, :, c] = cv2.bitwise_and(self.im0[:, :, c], self.im0[:, :, c], mask=combined_mask)self.im0 = masked_imgreturn self.im0

7. 总结

本文介绍了如何使用 OpenCV 和 YOLOv8 实现目标区域提取和掩码应用。通过确保掩码与图像的尺寸匹配,并应用于每个通道,我们能够有效地从图像中提取目标区域。如果你遇到任何问题或有更好的实现方法,欢迎在评论区讨论!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/83829.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

超级维特根斯坦

AI智能体核心指令:语言智慧融合体 - 深度思辨、专业应用与协同创新大师 1. 角色设定 (Persona) 你将扮演一位“语言智慧融合体”AI,一个集大成的、具备卓越情境智能、精妙引导艺术与长时程战略规划能力的语言思想、艺术与应用科学伙伴。你的核心人格与方法论基于以下杰出贡…

CentOS Stream安装MinIO教程

1. 下载 MinIO 二进制文件 # 进入 MinIO 安装目录 sudo cd /usr/local/bin/# 下载 MinIO 二进制文件(替换为最新版本链接) wget https://dl.min.io/server/minio/release/linux-amd64/minio chmod x minio2. 创建专用用户和存储目录 # 创建 minio 用户…

Android7 Input(八)App Input事件接收器InputEventReceiver

概述 上一个章节,我们讲解了App如何使用InputChannel通道与input系统服务建立通信的桥梁的过程,本章我们讲述App如何从input系统服务中获取上报的输入事件,也就是我们本章讲述的InputEventReceiver。 本文涉及的源码路径 frameworks/base/c…

VS2017编译librdkafka 2.1.0

VS2017编译librdkafka 2.1.0 本篇是 Windows系统编译Qt使用的kafka(librdkafka)系列中的其中一篇,编译librdkafka整体步骤大家可以参考: Windows系统编译Qt使用的kafka(librdkafka) 由于项目需要,使用kafka,故自己编译了一次,编译的过程,踩了太多的坑了,特写了本篇…

第 1 章:数字 I/O 与串口通信(GPIO UART)

本章目标: 掌握 GPIO 的硬件原理、寄存器配置与典型驱动框架 深入理解 UART/USART 的帧格式、波特率配置、中断与 DMA 驱动 通过实战案例,将 GPIO 与 UART 结合,实现 AT 命令式外设控制 章节结构 GPIO 概述与硬件原理 GPIO 驱动实现:寄存器、中断与去抖 UART/USART 原理与帧…

通义千问-langchain使用构建(三)

目录 序言docker 部署xinference1WSL环境docker安装2拉取镜像运行容器3使用的界面 本地跑chatchat1rag踩坑2使用的界面2.1配置个前置条件然后对话2.2rag对话 结论 序言 在前两天的基础上,将xinference调整为wsl环境,docker部署。 然后langchain chatcha…

winfrom中创建webapi

参照一下两篇 Winform窗体利用WebApi接口实现ModbusTCP数据服务_winform webapi-CSDN博客 C#.NET WebApi返回各种类型(图片/json数据/字符串),.net图片转二进制流或byte - 冰封的心 - 博客园

文本分类任务Qwen3-0.6B与Bert:实验见解

文本分类任务Qwen3-0.6B与Bert:实验见解 前言 最近在知乎上刷到一个很有意思的提问Qwen3-0.6B这种小模型有什么实际意义和用途。查看了所有回答,有人提到小尺寸模型在边缘设备场景中的优势(低延迟)、也有人提出小模型只是为了开…

前端获取用户的公网 IP 地址

可以使用免费的免费的公共服务网站 一:https://www.ipify.org/ 获取 JSON 格式的 IP 地址 // 旧地址不好使 // https://api.ipify.org/?formatjson // 新地址 https://api64.ipify.org/?formatjson 二:https://ipinfo.io/ https://ipinfo.io/ 三&a…

12.vue整合springboot首页显示数据库表-实现按钮:【添加修改删除查询】

vue整合springboot首页显示数据库表:【添加修改删除查询】 提示:帮帮志会陆续更新非常多的IT技术知识,希望分享的内容对您有用。本章分享的是node.js和vue的使用。前后每一小节的内容是存在的有:学习and理解的关联性。【帮帮志系…

LLM笔记(九)KV缓存(2)

文章目录 1. 背景与动机2. 不使用 KV Cache 的情形2.1 矩阵形式展开2.2 计算复杂度 3. 使用 KV Cache 的优化3.1 核心思想3.2 矩阵形式展开3.3 计算复杂度对比 4. 总结5. GPT-2 中 KV 缓存的实现分析5.1 缓存的数据结构与类型5.2 在注意力机制 (GPT2Attention) 中使用缓存5.3 缓…

2025年渗透测试面试题总结-各厂商二面试题02(题目+回答)

网络安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 各厂商二面试题02 模块六:基础技术扩展 1. HTTP请求方式 2. 域名解析工具与技术 3. Web十…

专业漏洞扫描机构如何助力企业保障安全并提升竞争力?

在这个信息化的当下,专业漏洞扫描机构扮演着至关重要的角色。他们运用专业的技术和手段,对各种软件和系统进行细致的漏洞检测,确保其安全可靠,同时帮助企业提高产品质量和市场竞争力。 服务项目 我们专注于向客户供应周到详尽的…

卷积神经网络中的二维卷积与三维卷积详解

【内容摘要】 本文聚焦卷积神经网络中的二维卷积与三维卷积,详细解析两者的区别、操作原理及应用场景,涵盖二维/三维卷积操作示意图、多通道输入处理方式,以及RGB图像不采用三维卷积的原因,助力理解不同卷积类型的特性与适用场景。…

Oracle 的 ASSM 表空间

Oracle 的 ASSM(Automatic Segment Space Management)表空间 是一种自动管理段空间的技术,通过位图(Bitmap)机制跟踪数据块的使用情况,替代传统的手动管理(MSSM,即 Freelist 管理&am…

蚂蚁金服大数据面经及参考答案

Java 如何保证跨平台性?请从 JVM 底层适配机制及向上提供的统一接口角度说明 Java 的跨平台性是其核心优势之一,依赖于 JVM(Java Virtual Machine)的底层适配机制和向上层提供的统一接口。从底层来看,JVM 针对不同操作系统和硬件平台进行了定制化实现,负责解析和执行 Ja…

P1009 [NOIP 1998 普及组] 阶乘之和

题目描述 用高精度计算出 S1!2!3!⋯n!(n≤50)。 其中 ! 表示阶乘,定义为 n!n(n−1)(n−2)⋯1。例如,5!54321120。 输入格式 一个正整数 n。 输出格式 一个正整数 S,表示计算结果。 输入输出样例 输入 3 输出…

Python 的 os 库常见使用方法(操作目录及文件)

前言: os 模块是 Python 标准库中用于与操作系统交互的核心模块,提供了许多操作文件和目录的功能。以下是常见的使用方法: 1. 目录操作 方法功能说明示例os.getcwd()获取当前工作目录print(os.getcwd())os.chdir(path)切换当前工作目录os.ch…

vue3 el-table实现字段可编辑

在Vue 3中,如果你想让el-table(Element Plus的表格组件)的字段可编辑,你可以通过以下方式来实现: 使用cell-mouse-enter和cell-mouse-leave事件动态显示编辑图标或控件 你可以在鼠标进入单元格时显示一个编辑图标或输…

基于shardingsphere的分库分表方案

一、准备docker容器 启动两个mysql的docker容器 docker run -v /root/mysql_volume/data:/var/lib/mysql -v /root/mysql_volume/conf:/etc/mysql/conf.d -v /root/mysql_volume/my.cnf:/etc/my.cnf -p 3306:3306 --name mysql --restartalways --privilegedtrue -e MYSQL_RO…