图像质量评价是计算机视觉领域研究的一项重要任务。当前,许多全参考图像质量评价(FR-IQA)算法在精确预测传统失真图像和GAN失真图像的视觉质量方面还存在性能瓶颈。为此,本文利用孪生网络和Vision Transformer等技术,提出了一种统一双注意力和孪生Transformer网络的全参考图像质量评价算法(以下简称UniDASTN算法)。本文UniDASTN算法的整体框架如图1所示。
图1. 本文UniDASTN算法的整体框架
由于UniDASTN算法能较好地模拟人类视觉系统特性并充分利用参考图像和失真图像之间的感知差异信息,因此它能够对人类视觉注意力集中的重要区域提供准确的质量评估,从而获得与人类视觉感知相一致的评价结果。与现有研究工作相比,UniDASTN算法的主要贡献如下:
提出一种新颖的空域注意力模块。该空域注意力模块由一个孪生Transformer网络和一个特征融合块组成。它能够模拟人类视觉系统,使视觉注意力集中在重要区域的特征,同时能有效地将参考图像和失真图像之间的感知差异映射成一种潜在距离。
提出一种新的双注意策略。该策略利用通道注意力和空域注意力来自适应地提取重要特征,以提高失真灵敏度。具体而言,通过使用挤压和激励网络来模拟通道注意力,自适应地增强不同通道的信息。此外,还利用提出的空域注意力模块来增强局部区域特征,提升细粒度质量预测性能。该双注意策略能够有效地提高所提取的Vision Transformer特征的失真敏感性。
设计一个新的联合损失函数。该联合损失函数综合考虑了均方误差、双向KL散度和质量分数排名次序等信息。它能提供稳定训练并确保网络能够有效地学习图像感知质量。
表1与表2展示了本文UniDASTN算法与一些最先进的FR-IQA算法在四个公开数据集上的性能比较。实验结果表明UniDASTN算法在质量预测准确性方面表现出优秀的性能。
表3展示了UniDASTN算法与一些最先进的FR-IQA算法在跨数据集上的性能比较。实验结果表明该算法在质量预测方面实现了较好的泛化能力。
该研究工作的论文已经被CCF-B类期刊ACM Transactions on Multimedia Computing Communications and Applications (TOMM)录用,作者为本实验室的唐振军*、陈致远、李志欣、钟必能、张显全和复旦大学的张新鹏。
论文信息如下:Zhenjun Tang*, Zhiyuan Chen, Zhixin Li, Bineng Zhong, Xianquan Zhang, and Xinpeng Zhang. Unifying Dual-Attention and Siamese Transformer Network for Full-Reference Image Quality Assessment. ACM Transactions on Multimedia Computing, Communications, and Applications, DOI:10.1145/3597434, 2023.
论文下载链接:https://doi.org/10.1145/3597434