图像质量评价（Image Quality Assessment，IQA）

文章目录

图像质量评价（Image Quality Assessment，IQA）
一、评估方式：主观评估 + 客观评估
- 1.1、主观评估方式
- 1.2、客观评估方式：全参考 + 半参考 + 无参考
- - （1）全参考的方法对比（Full-Reference IQA，FR-IQA）
  - （2）半参考的方法对比（Reduced-Reference IQA，RR-IQA）
  - （3）无参考的方法对比（No-Reference / Blind IQA，NR-IQA）
- 1.3、常用公开IQA数据集对比表

图像质量评价（Image Quality Assessment，IQA）

图像质量评价指标（Image Quality Assessment, IQA）：是衡量图像在主观感受或客观性能上的一组量化标准，常用于图像增强、压缩、重建、去噪等任务的效果评估。

图像质量评估：维基百科
图像质量评价：百度百科
图像质量评价（每个方法的论文简介与链接）

图像质量评估综述

质量评估可分为：
图像质量评估IQA
视频质量评估VQA

IQA方法从宏观上可分为：
主观评价：依赖人工评分，尽管准确性高、符合人眼视觉系统（HVS）偏好，但成本昂贵、效率低下，难以适配大规模自动化系统。
客观评价：则以数学模型自动预测图像质量，广泛应用于工业与科研领域，是当前主流研究方向。

从参考图像可用性角度，IQA又分为三类：
FR-IQA（全参考）：借助无失真参考图像，计算其与原始图像的差异，方法成熟、性能稳定，但对实际应用受限（因多数情况下参考图像缺失）。
RR-IQA（半参考）：只有原始图像的部分信息或从参考图像中提取的部分特征，在性能与适用性之间折中。
NR-IQA（无参考）：仅依赖待评估图像本身，不需要参考图像，应用最广但难度最大，当前是研究热点。

一、评估方式：主观评估 + 客观评估

评估方式	简介	特点与对比维度
主观评估（Subjective IQA）	基于真实观察者的视觉感知，由人类主观对图像质量进行评分，常用指标包括MOS（平均意见得分）与DMOS（差异意见得分）。需要通过标准化实验环境和统计方法获取大量人评分。	- ✅ 精度最高，最符合人眼感知 - ❌ 可复现性差，结果易受主观因素干扰 - ❌ 成本高，需招募被试并控制实验环境 - ❌ 实时性差，无法快速得出结果 - ❌ 难以部署，通常用于数据库标注与模型基准
客观评估（Objective IQA）	通过数学模型或算法自动估算图像质量分数，目标是尽可能逼近主观得分，具有可重复性和实时性。根据参考图像的使用程度分为FR（全参考）、RR（半参考）、NR（无参考）三类，是当前研究热点。	- ✅ 可复现、稳定性强 - ✅ 成本低，自动处理大规模图像 - ✅ 实时性好，支持在线或终端部署 - ✅ 可广泛应用于图像压缩、增强、采集质量控制等场景 - ⚠ 精度依赖模型质量，NR方法尤其具有挑战性

1.1、主观评估方式

方法类型	简要说明	评分输出	应用场景
MOS（平均意见得分）	多人打分后取平均分	1 ~ 5 或 0 ~ 100	训练NR-IQA模型，构建图像质量数据集
DMOS（差分MOS）	与原始图像评分的差值，反映质量劣化程度	通常为正数	TID2013、CSIQ等主观差分数据集
单刺激法（SS）	仅展示失真图像进行评分	相对主观	KonIQ-10k, LIVE Wild等
双刺激法（DSCQS）	参考图与失真图并排显示，受试者对失真程度打分	相对准确	LIVE、CSIQ、TID系列
三选一法（3AFC）	三图中选出质量最好/最差者，构建排序关系用于学习	构造对比样本对	DeepIQA排序训练等

1.2、客观评估方式：全参考 + 半参考 + 无参考

类别	全称（英文）	是否需要参考图像	输入信息	输出结果	代表算法/模型	常见评价指标	常用数据集	优势描述	劣势描述	典型应用场景
FR-IQA	Full Reference IQA	✅ 全参考	原图 + 失真图	两图之间的相似性得分	PSNR、SSIM、MS-SSIM、FSIM、VIF	PSNR, SSIM, MSE	LIVE, TID2013, CSIQ, KADID-10k	精度高，计算逻辑清晰，结果可对齐主观感知	依赖原图，实际部署难	编解码优化、图像增强算法调试
RR-IQA	Reduced Reference IQA	✅ 半参考	失真图 + 原图特征或统计量	与参考特征的相似性得分	RRED、DNT、NRQM（部分）	JS差异, KL散度, 差值指标	TID2013, LIVE, SIQAD	节省传输成本，精度优于NR，兼顾应用性与性能	仍需传输部分特征，模型通用性不足	视频传输评估、带宽受限下的图像监控
NR-IQA	No Reference IQA / Blind IQA	❌ 无参考	单张失真图	图像质量得分（预测值）	BRISQUE、NIQE、PIQE、DeepBIQ、HyperIQA等	MOS（主观分数）	KonIQ-10k, SPAQ, CLIVE, LIVE Wild	无需参考图，可用于实际图像质量预测部署	难以保证泛化能力，训练依赖主观评分数据集	医疗图像质检、无人监督场景

（1）全参考的方法对比（Full-Reference IQA，FR-IQA）

方法名	核心指标	是否模型训练	主要思想	优点	缺点	适用场景
MSE / PSNR	均方误差 / 峰值信噪比	否	逐像素差异/误差量度	简单高效，便于实现	不符合人眼感知；不具备感知鲁棒性	压缩、编码等低层处理
SSIM	结构相似度 Structural Similarity	否	考察亮度、对比度与结构信息	模拟视觉机制，感知一致性更好	对几何变化、伪影不敏感	编解码质量评估
MS-SSIM	多尺度结构相似度	否	多分辨率层次感知	更贴近人眼感知层级	计算略复杂	高清视频/图像质量评价
VIF	信息保真度 Visual Information Fidelity	否	源图像/失真图像的信息量比率	信息论基础，评价可靠性高	理论复杂，耗时较长	图像传输、压缩失真评估
FSIM	特征相似度 Feature SIM	否	考察相位一致性、梯度强度	敏感性高，鲁棒性好	不适合大规模计算	图像增强质量评价
LPIPS	感知相似度 Learned Perceptual Image Patch Similarity	是（深度模型）	提取CNN特征后计算相似度	感知特性强，视觉一致性高	模型依赖重、需GPU	超分辨、风格迁移、图像复原等任务

（2）半参考的方法对比（Reduced-Reference IQA，RR-IQA）

方法名	参考特征类型	是否训练模型	方法特点	优点	缺点	适用场景
RRED	局部统计量（DCT能量特征）	否	基于变换域的熵率与视觉冗余度估计	精度高，接近FR-IQA	特征提取依赖参考图像，计算复杂	通信系统图像质量反馈
DNT-RR	DCT统计特征	否	仅传输部分统计特征用于质量预测	传输代价低，可嵌入实际系统	失真类型覆盖范围有限	网络图像编码传输
Wavelet-Q	小波能量子带统计量	否	局部频域统计特征构建质量指标	可解释性强，计算高效	对某些失真鲁棒性不足	通信协议/嵌入式视频传输
RR-FSIM	相位一致性+幅度统计特征	否	对FSIM简化，只提取部分参考特征	接近FR精度，传输成本低	对特征选择依赖高	视频会议、直播质量评估
RR-NSS	自然场景统计参数	否	利用自然图像统计模型压缩参考图像信息	适应性强	不适合非自然图像	工业检测、远程图像识别等场景

（3）无参考的方法对比（No-Reference / Blind IQA，NR-IQA）

🚀 NR-IQA研究现状

传统统计方法阶段（2010年以前）
代表方法如BIQI、DIIVINE、BRISQUE等，依赖自然图像统计（NSS）特征，使用SVM或贝叶斯回归模型实现质量预测。该阶段研究具有可解释性强、计算代价低等优点，但泛化能力有限。
数据驱动阶段（2013年起）
随着深度学习发展，基于CNN的NR-IQA方法如CORNIA、NIMA、DeepBIQ等不断涌现，能够从图像中自动学习判别特征，主观一致性显著提升。此类方法在主观评分预测、跨数据库泛化等方面取得较好效果，但对数据依赖严重、可解释性差。
Transformer与自监督阶段（2020年至今）
新一代方法引入Vision Transformer结构（如MANIQA、TReS、MUSIQ）或自监督学习（如CONTRIQUE），提升跨场景泛化能力与语义建模能力。当前最先进模型普遍在多个公开数据集（如LIVE、TID2013、KonIQ-10k、CLIVE等）上取得了优异成绩，开始接近甚至超过主观一致性下限。

方法名称	首次提出	模型类型	特征类型	是否训练	适用失真类型	主观一致性	优点	局限性	应用场景
NIQE (Natural Image Quality Evaluator)	2013	传统统计模型	NSS（自然场景统计）	否	泛化失真（无需训练数据）	中等	无需训练、计算高效	对特定失真不敏感，主观一致性不高	快速筛选、质量控制
BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator)	2012	SVM回归	NSS特征（空域）	是	模糊、压缩等常见失真	高	轻量级、主观一致性较高	需训练样本，失真类型受限	通用图像评估
BLIINDS-II (Blind Image Integrity Notator using DCT Statistics)	2011	贝叶斯回归	NSS（频域DCT）	是	模糊、噪声等	中等	频域分析精细	提取DCT特征耗时、训练依赖性	视频压缩质量监测
CORNIA (Codebook Representation for No-Reference IQA)	2013	机器学习	原始图块+无监督特征学习	是	多种失真	高	结合深层表示	对内容敏感，训练成本高	图像增强前后质量评估
HOSA (Higher Order Statistics Aggregation)	2015	无监督统计	特征聚合（SVD+高阶矩）	是	各类失真	高	无需深度网络，适应性强	参数敏感，训练集依赖	医学图像质量分析
DIIVINE	2011	SVM	NSS（空间+小波域）	是	多类失真	高	空间-频域联合	特征维度高，训练成本大	图像处理算法评估
IL-NIQE	2015	无监督	NSS + 亮度不变性	否	各类失真	中等	无训练集依赖，稳定性强	泛化能力有限	嵌入式图像监控设备
NIMA (Neural Image Assessment)	2017	CNN回归	全图输入（Inception）	是	主观美学/质量	高	可预测MOS分布，美学兼顾	训练代价高	图像美学质量评分
DeepBIQ	2016	CNN分类+回归	局部图块+深度特征	是	泛化强	高	利用深层特征，有效预测	黑盒问题，计算量大	手机拍照图像优化
RankIQA	2017	Siamese网络	Siamese排序特征	是	多类失真	高	模拟评分过程，更接近人感知	排序数据构建复杂	图像优化排序任务
DBCNN	2018	CNN分类回归	VGG16 + 评分网络	是	各类失真	高	精度高，可回归MOS	需要大量数据	通用图像质量评分
CONTRIQUE	2021	Transformer+NSS	NSS嵌入 + 自监督学习	是	泛化失真（无监督）	高	利用NSS嵌入鲁棒性强	网络复杂	零样本质量估计
MANIQA	2022	Vision Transformer	局部块 + 全局注意力	是	泛化强	极高	高分辨率支持，跨数据集表现好	模型参数多	高端视觉质量分析

1.3、常用公开IQA数据集对比表

数据集名称	类型	图像数（参考/失真）	失真类型	主观评分	特点简介
LIVE [官网]	FR-IQA	29 / 779	模糊、压缩、噪声、快门抖动等5类	DMOS	最早最广泛使用的数据集之一；包含真实失真与评分，广泛用于FR-IQA评估基准。
CSIQ [官网]	FR-IQA	30 / 866	6类失真×不同强度	DMOS	图像与失真类型更丰富；主观得分离散性较小；与LIVE互补。
TID2013 [官网]	FR-IQA	25 / 3000	24种失真×5级强度	MOS	非常全面的数据集；失真种类多，适合训练与泛化测试。
TID2008	FR-IQA	25 / 1700	17类失真	MOS	TID2013前身，失真较少但结构相似。
KADID-10k [官网]	FR-IQA	81 / 10,125	25类失真×不同强度	MOS	图像种类多、失真复杂，适合深度学习模型训练。
CID2013	FR-IQA	474 / 474	实拍设备失真	MOS	强调真实场景采集（拍照质量）；图像尺寸大，适合真实感知建模。
Waterloo IAA [官网]	FR-IQA	4744 / 94,880	常见压缩与噪声等失真	无主观得分	用于无参考方法的无监督训练或构造合成失真；大规模。
KonIQ-10k [官网]	NR-IQA	— / 10,073	自然图像，真实失真	MOS	高分辨率自然图像；图像来源广泛，适合NR-IQA训练；包含多维质量因子标注。
CLIVE [官网]	NR-IQA	— / 1,162	拍摄图像中自然失真	MOS	强调移动端/手持拍摄自然图像质量；适合盲质量评价建模。
SPAQ [论文]	NR-IQA	— / 11,125	高质量自然失真图像	MOS	更具挑战性，真实感强；含曝光/色彩/对比等因素。
FLIVE	NR-IQA	— / 39,000+	自然采集图像	MOS	最大规模真实图像质量数据集之一，适用于深度NR-IQA模型训练。