[MIA 2025]CLIP in medical imaging: A survey

[MIA 2025]CLIP in medical imaging: A survey

pingmian/2025/7/3 7:48:44/文章来源:https://blog.csdn.net/Sherlily/article/details/149077628

论文网址：CLIP in medical imaging: A survey - ScienceDirect

项目页面：github.com

英文是纯手打的！论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误，若有发现欢迎评论指正！文章偏向于笔记，谨慎食用

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Background

2.3.1. Contrastive language-image pre-training

2.3.2. Variants of CLIP

2.3.3. Medical image–text dataset

2.4. CLIP in medical image–text pre-training

2.4.1. Challenges of CLIP pre-training

2.4.2. Multi-scale contrast

2.4.3. Data-efficient contrast

2.4.4. Explicit knowledge enhancement

2.4.5. Others

2.4.6. Summary

2.5. CLIP-driven applications

2.5.1. Classification

2.5.2. Dense prediction

2.5.4. Summary

2.6. Comparative analysis

2.7. Discussions and future directions

2.8. Conclusion

1. 心得

（1）我这可能只记录这篇文章比较不同的地方，基础CLIP和医学影像就不记录了，可以参考原文。主要是太长了没必要全搬运

（2）怎么全文画图风格还不一样，每个人画一张拼的？

（3）偏记录一点，介绍了不同的特别多模型

2. 论文逐段精读

2.1. Abstract

①就说CLIP在医学成像领域有意义然后要探索一下

2.2. Introduction

①Limitations: poor performance on out-of-distribution performance

②The trend of CLIP relevant papers (left) and medical image contained in thosed papers (right):

③How CLIP be used:

2.3. Background

2.3.1. Contrastive language-image pre-training

①How CLIP works（如果没看过可以去找CLIP原文，很清晰易懂的）:

②Performance of CLIP in medical field:

2.3.2. Variants of CLIP

①介绍了一些变体，但因为没画图很难记住或者一眼知道有啥区别

2.3.3. Medical image–text dataset

①Open medical dataset:

2.4. CLIP in medical image–text pre-training

①Representative CILP based medical models:

2.4.1. Challenges of CLIP pre-training

①Challenges of CLIP in medical image field:

Modality-influenced, local and global image/text analysis needed

Scarse data（不是说零样本泛化性都很好了吗为什么又说数据稀缺

Need professional kownledge

2.4.2. Multi-scale contrast

①GLoRIA matches text with subgraph:

②LoVT further assigns different weights on different sentence

2.4.3. Data-efficient contrast

①Blindly push all negative pairs away might reduce the relevance of similar disease:

②Add description or shuffle sentences

③Using medical image video

2.4.4. Explicit knowledge enhancement

①Combined with graph or kownledge graph(KG):

2.4.5. Others

~

2.4.6. Summary

~

2.5. CLIP-driven applications

2.5.1. Classification

①CLIP based models on image classification:

（1）Zero-shot classification

①Diagnosis example（我靠还能这样，，做二分类）:

②How Xplainer works（我靠牛呗啊CLIP现在都酱紫玩的）:

（2）Context optimization

①Example of context optimization:

这没什么解释，不能让人快速上手啊哈哈

2.5.2. Dense prediction

①Methods:

（1）Detection

①Lists relevant models

（2）2D medical image segmentation

①fine tune CLIP to 2D medical image dataset

（3）3D medical image segmentation

①Examples:

（4）Others

①Repesentitive models:

（1）Generation

①Automatically generate medical report or medical image

（2）Medical visual question answering

①Example（这构造奇奇怪怪的）:

（3）Image–text retrieval

①Current models focus on global image feature

②X-TRA:

2.5.4. Summary

~

2.6. Comparative analysis

①How Multi-modality Large Language Model (MLLM) different from CLIP:

②Performance of CLIP on different image sets:

2.7. Discussions and future directions

①Inter-disease similarity:

②Challenges: inconsistency between pre-training and application, incomprehensive evaluation of refined pre-training, challenges of volumetric imaging, limited scope of refined CLIP pre-training, debiasing in CLIP Models, enhancing adversarial robustness of CLIP, exploring the potential of metadata, incorporation of high-order correlations, beyond image–text alignment

2.8. Conclusion

~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/87138.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/87138.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python通讯录系统实战教程

Python通讯录系统实战教程

具体介绍见通讯录管理系统设计与实现（C）-CSDN博客 class Person:def __init__(self, name"", sex0, age0, phone"", addr""):self.m_name name # 姓名self.m_Sex sex # 性别（1-男，2-女…

阅读更多...

虾米壁纸分类页面代码

虾米壁纸分类页面代码

<template> <view class"wallpaper-category"> <custom-nav-bar title"分类列表"></custom-nav-bar>  <scroll-view scroll-y class"category-scroll-view"> <view cl…

阅读更多...

K8s-pod 调度基础

K8s-pod 调度基础

目录 Replication Controller（RC） 概念关键字段 Replica Set（RS） 概念关键字段 RC 与 RS 的区别无状态应用管理Deployment 无状态应用（Stateless Application） 什么是无状态？ 无状…

阅读更多...

Vue + RuoYi 前后端分离入门手册

Vue + RuoYi 前后端分离入门手册

Vue RuoYi 前后端分离技术栈是一个非常流行且成熟的企业级后台管理系统开发方案，尤其在国内 Java 开发社区中广泛应用。它结合了现代化的前端框架 Vue.js 和基于 Spring Boot 的后端框架 RuoYi，提供了开箱即用的权限管理、代码生成、监控等功能&#xf…

阅读更多...

JSON 安装使用教程

JSON 安装使用教程

一、JSON 简介 JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。它广泛应用于前后端数据通信、配置文件、API 传输等场景。二、JSON 是否需要安装？ 不需要…

阅读更多...

十大网络协议

十大网络协议

十大网络协议标题1. HTTP（HyperText Transfer Protocol，超文本传输协议）标题2. HTTPS（Secure Hypertext Transfer Protocol，安全超文本传输协议）标题3. HTTP/3标题4. TCP（Transmission Control…

阅读更多...

【语音告警】博灵智能语音报警灯Modbus TCP触发告警实例-语音报警灯|声光报警器|网络信号灯

【语音告警】博灵智能语音报警灯Modbus TCP触发告警实例-语音报警灯|声光报警器|网络信号灯

功能说明本文将以Python代码为例，讲解如何通过Python代码调用博灵语音通知终端A4实现声光语音告警。本代码实现Python触发Modbus写多寄存器和写单寄存器实现调用通知终端模板播报功能（通知终端内置TTS语音合成技术，本案例不讲解如何文本转…

阅读更多...

摄像头 rtsp数据量和正常数据流有什么区别

摄像头 rtsp数据量和正常数据流有什么区别

摄像头RTSP数据流和正常数据流（如HTTP传输的普通文件或网页数据）在多个方面存在显著差异，主要体现在协议特性、数据量、实时性、应用场景等方面。以下是具体对比： 1. 协议与传输方式 RTSP流： 实时流协议（R…

阅读更多...

深入理解装饰器模式：动态扩展对象功能的灵活设计模式

深入理解装饰器模式：动态扩展对象功能的灵活设计模式

深入理解装饰器模式：动态扩展对象功能的灵活设计模式 🌟 嗨，我是IRpickstars！ 🌌 总有一行代码，能点亮万千星辰。 🔍 在技术的宇宙中，我愿做永不停歇的探索者。 ✨ 用代码丈量世界…

阅读更多...

141.在 Vue 3 中使用 OpenLayers Link 交互：把地图中心点 / 缩放级别 / 旋转角度实时写进 URL，并同步解析显示

141.在 Vue 3 中使用 OpenLayers Link 交互：把地图中心点 / 缩放级别 / 旋转角度实时写进 URL，并同步解析显示

本文分享一个前端小技巧：借助 OpenLayers 的 Link 交互在浏览器地址栏实时记录地图状态，同时把这些参数解析出来展示在页面上。 ✨ 双向同步：拖动、缩放、旋转地图时，URL 自动更新；手动修改 URL 或后退 / 前进&#x…

阅读更多...

数字人的形象与内容，虚拟形象背后的权益暗战

数字人的形象与内容，虚拟形象背后的权益暗战

（首席数据官高鹏律师数字经济团队创作，AI辅助） 当某科技公司的虚拟偶像在直播间收获百万打赏时，当某品牌的数字代言人形象被篡改成表情包全网传播时，当网红博主的AI分身开始替代真人直播带货时，一场关于数…

阅读更多...

【python】pdf拆成图片，加中文，再合成pdf

【python】pdf拆成图片，加中文，再合成pdf

前期搞了个pdf加页脚，但是搞了半天中文加不了，就换了个思路。直接说结论，pdf拆成图片，加中文，再合成pdf，会导致pdf模糊。 import os import fitz # PyMuPDF from PIL import Image, ImageDraw, ImageFon…

阅读更多...

分布式爬虫数据存储开发实战

分布式爬虫数据存储开发实战

分布式爬虫存储的核心矛盾在于：既要高吞吐又要强一致性，还要避免重复。比如Kafka虽然吞吐高但无法去重，Redis去重快但容量有限。所以我们可能低估了状态同步的复杂度——比如暂停爬虫时如何保证内存中的URL状态不丢失。分布式爬虫的数据存储…

阅读更多...

探秘阿里云Alibaba Cloud Linux：云时代的操作系统新宠

探秘阿里云Alibaba Cloud Linux：云时代的操作系统新宠

引言：云时代的操作系统变革在云计算技术蓬勃发展的当下，企业的数字化转型进程被极大地加速，而作为云计算底层支撑的操作系统，也迎来了前所未有的变革与挑战。传统操作系统在应对云计算环境中的大规模资源调度、高弹性扩展以及安…

阅读更多...

使用pyflink进行kafka实时数据消费

使用pyflink进行kafka实时数据消费

目录背景代码demo 踩坑记录 1、kafka连接器，kafka客户端jar包找不到 2、java模块系统访问限制 3、执行demo任务，一直报错连接kafka topic超时总结背景实际项目中经常遇到source是kafka，需要实时消费kafka某个topic中的数据&#x…

阅读更多...

软件测试理论框架与发展：分类、原则与质量保障策略

软件测试理论框架与发展：分类、原则与质量保障策略

第一章一、计算机软件的发展分类早期软件开发的特点： 软件规模小、复杂程度低、开发过程不规范测试的情况： 测试等同于调试目的纠正软件的已经知道的故障投入少，介入晚成为一种发现软件的活动（1957） 测试不等于…

阅读更多...

未知威胁攻击原理和架构

未知威胁攻击原理和架构

大家读完觉得有帮助记得关注和点赞！！！ 未知威胁（Unknown Threats）指利用零日漏洞、合法工具滥用、高级逃逸技术等**绕过传统特征检测**的攻击，其核心在于**动态对抗防御体系的认知盲区**。以下从攻击原理、…

阅读更多...

基于Netty-WebSocket构建高性能实时通信服务

基于Netty-WebSocket构建高性能实时通信服务

引言：WebSocket在现代应用中的重要性在当今实时交互应用盛行的时代，WebSocket协议已成为实现双向通信的核心技术。相比传统的HTTP轮询，WebSocket提供了： 真正的全双工通信极低的延迟（毫秒级）高效的连接管…

阅读更多...

咸虾米项目总结1--const用法

咸虾米项目总结1--const用法

在 UniApp（或 Vue 3）中，声明一个空对象可使用下面这2种写法： // 写法1 const a ref(null);// 写法2 const a ref({}); 在UniApp中，const a ref()用法概述： 用途： 创建一个响应式引用&#x…

阅读更多...

在mac下手动编译迁移的android版webrtc组件

在mac下手动编译迁移的android版webrtc组件

我原先使用的android版webrtc是在linux下编译的，现在因为某些原因需要把整个库迁移到mac下编译。把代码迁移完后，正常是需要通过gclient sync 重新构建编译环境，但是由于网络限制等方面原因，会导致完成的比较慢。在摸索一阵后…

阅读更多...

最新文章