论文题目
A New Dataset and Framework for Real-World
Blurred Images Super-Resolution
1、简介
最近的盲图像超分辨率(BSR)方法已经显示出对一般图像的熟练程度。然而当使用模糊图像数据时,最近的方法的有效性明显降低,而故意模糊的图像数据占一般数据的很大比例。为了进一步研究和解决这个问题,开发了一个专门为模糊图像量身定制的新超分辨率数据集,名为“真实世界模糊保持超分辨率”(ReBlurSR)数据集,该数据集由近个散焦和运动模糊图像样本组成,具有不同的模糊大小和不同的模糊强度,提出了一种新的模糊图像感知-模糊自适应超分辨率(PBaSR) BSR框架,该框架包括两个主要模块:交叉解纠缠模块(CDM)和交叉融合模块(CFM)。CDM利用双分支并行性在优化过程中隔离冲突的模糊数据和一般数据。CFM基于模型插值,经济高效地融合了这些不同领域的优化先验。通过集成这两个模块,PBaSR在通用数据和模糊数据上都实现了令人称赞的性能,而无需任何额外的推理和部署成本,并且可以跨多个模型体系结构进行推广。丰富的实验表明,PBaSR在不产生额外推理成本的情况下,在各种指标上实现了最先进的性能。在广泛采用的LPIPS指标中,通过不同的锚定方法和模糊类型,在ReBlurSR和多个通用BSR基准中,PBaSR实现了大约的改进范围。
盲图像超分辨率(Blind Image Super-Resolution, BSR)旨在从未知退化的低分辨率(LR)图像中真实地重建高分辨率(HR)图像。模糊是一种常见的图像退化形式,它受光圈大小和曝光时间等因素的影响,在不同视觉感知的实际图像中表现出来。以往对模糊的研究主要关注于模糊的检测和去除。然而,经过调查发现模糊也是一种常用的视觉感知增强摄影技术。以图1a中DIV2K的真实样本为例,它通过散焦背景来突出前景松鼠。此外,这种类型的技术被广泛应用于许多商业多媒体编辑平台,由Adobe Photoshop, Krita和LunaPic的基本“滤镜”菜单中的“模糊”功能证明。因此在BSR过程中应该保留故意设置的模糊,而不是完全删除,这一点还没有得到太多的重视。如图1a所示,尽管整体PSNR/SSIM很高,但最近的方法过度增强了模糊区域,从而损害了实际感知质量。为了定量验证推测,还使用了一种更合理的感知度量LPIPS,对DIV2K-Val基准(个样本)进行了简要评估,并将其分为有模糊的样本和没有模糊的样本。如图1b所示,与没有模糊的全聚焦样本相比,不同方法下模糊样本的LPIPS通常降低 ~ 。为了进一步研究这个被忽视的问题,开发了一个新的超分辨率基准,专门用于恢复具有模糊的图像,命名为真实世界模糊保持的超分辨率(ReBlurSR)数据集。它包含2,张高质量(HQ)图像,这些图像具有不同的模糊,这些图像来自现有的超分辨率(例如DIV2K, DIV8K , Flickr2K),模糊相关数据集和网络图像。精心标记和分类模糊数据的各种特征,如类型,大小和强度。
除了ReBlurSR数据集,最优的模糊BSR框架应该在不影响图像处理质量的情况下自适应处理模糊图像并提高其恢复性能。此外,它应该能够轻松地与现有的SOTA模型集成,并减少额外的推理成本。针对这些标准,提出了感知模糊自适应超分辨率(PBaSR),这是第一个模糊自适应BSR框架。PBaSR框架由两个主要模块组成:交叉解缠模块(CDM)和交叉融合模块(CFM)。一方面,CDM的分支针对模糊,将模糊数据与非模糊数据分离,集中学习,减少统一训练中的冲突。另一方面,CFM利用自适应跨分支权重插值,促进分支之间的信息交换,同时保持特征空间对齐。这种设置允许通过经济高效的加权平均有效地融合每个分支在其各自领域的最优先验,从而在不增加任何推理或部署成本的情况下很好地处理模糊和非模糊数据。通过这些模块的协同,PBaSR大大提高了最近各种主流BSR方法在模糊数据上的性能。在ReBlurSR和几个通用BSR基准测试上进行的各种定量指标的综合测试表明,PBaSR在模糊图像盲超分辨率方面达到了最先进的性能,并与最近在一般数据处理方面表现最好的方法相匹配。PBaSR在不同的感知指标上持续提高性能,适用于各种方法和模糊类型,在没有任何额外推理成本的情况下,LPIPS的性能提高了到。
主要贡献如下:
-观察到最近的BSR方法忽略了有意模糊图像的处理,并且在模糊区域的保存方面存在局限性。
-针对这一现象,提出了真实世界模糊保持超分辨率(ReBlurSR)数据集,用于模糊图像盲超分辨率。它包含2,张具有不同模糊区域的高质量图像,几乎是常用的SR基准DIV2K的三倍。
-验证了当前模糊BSR方法的局限性,并提出了新的模糊感知自适应超分辨率(PBaSR)模糊BSR框架。在多个基准测试上的大量实验表明,PBaSR有效地提高了BSR在模糊数据上的性能,同时在一般数据上保持了良好的性能,没有额外的推理成本。
2、相关工作
单图像超分辨率
自SRCNN出现以来,开发了许多基于cnn的超分辨率框架。EDSR和RDN利用残差密集块(Residual Dense Blocks)改进了SISR。由于退化的多样性,BSR尤其具有挑战性,许多人使用gan来增强纹理,并将精心设计的退化合成过程与高质量的数据集结合起来,有意模糊可以改善视觉感知。图1显示,超过%的DIV2K-Val样本是模糊的,目前的方法很难处理这样的数据。因此,研究模糊BSR并构建数据集有利于BSR技术的发展。
图像超分辨率基准数据集
图像超分辨率(SR)的发展受到综合基准测试的大力推动。DIV2K包括张高质量(HQ) 2K分辨率图像,由于其内容的多样性和细节性,已成为广泛使用的评估SR模型的标准,Flickr2K拥有来自各种场景的张HQ图像,为训练鲁棒SR模型提供了足够的数据。为了进行评估,BSDS100被广泛使用,它有张具有挑战性的图像,具有复杂的自然场景。Set5和Set14数据集尽管规模较小,但仍因其历史意义而广受欢迎。此外,Urban100和Manga109数据集也满足了特定的需求,前者侧重于城市场景,后者侧重于漫画图像。尽管这些数据集为一般SR任务的评估提供了强大的平台,但仍然缺乏模糊图像SR的专门基准。
3方法
真实世界盲超分辨率中的模糊
虽然最近的BSR方法在一般图像增强方面表现出色,但在面对模糊图像时却表现不佳,而模糊在高质量多媒体内容中广泛存在,是一种重要的摄影技术。从DIV2K-val数据集中选择了模糊样本,揭示了最近SR方法的局限性,如过度纹理化和渐晕破坏,如图1a所示。这些问题被PSNR/SSIM指标忽略了,因为它们对平滑区域不敏感。为了进一步定量评估不足,使用DIV2K-Val数据集进行了统计实验,使用模糊检测方法D-DFFNet来区分有模糊和没有模糊的样本。发现超过%的样本有明显的模糊,这是一个不可忽略的比例。此外,如图1b所示,SOTA BSR方法在模糊样本上的有效性明显下降,LPIPS下降了。这些发现突出了模糊在高质量媒体中的重要性,以及当前数据集和BSR方法的差距。因此本工作旨在针对这一差距开发一个集中的子集,并提高BSR方法在模糊数据上的性能。
真实世界模糊保持的超分辨率数据集
数据收集 为了支持BSR方法在模糊图像上的训练和评估,创建了高质量的真实世界模糊保持的超分辨率数据集,即ReBlurSR数据集,由两个子集组成。从DIV2K、Flickr2K、DIV8K、CUHK、EBD和网络等来源中选择了张真实世界的模糊图像。使用流行的基于扩散的模型合成了幅模糊图像。这张图像组成了ReBlurSR-Train集。为了进行真实的评估,ReBlurSR-Test集包括来自现有验证基准的张真实模糊图像。每个样本都有一个高分辨率(HR)图像和一个模糊区域图,表示模糊像素为0,非模糊像素为1。为了多样性和真实感,从最近的公共数据集和网络中收集数据,并使用多模态模型和图像生成模型合成了逼真的模糊图像。如图2a所示,数据收集涉及:
1)从特定于模糊的数据集EBD和CUHK中,选择了模糊区域小于%的大样本(超过×像素),并将提供的手动标记的模糊图与图像进行配对,得到个样本。
2)利用D-DFFNet对Flickr2K、DIV2K、DIV8K等通用SR数据集进行模糊估计,滤除模糊区域小于5%的样本,并对估计的模糊图的检测误差进行人工校正。此外从网络上收集了个HQ样本,使用相同的处理,总共有个有效样本。
3)对于合成图像,开发了一个使用大型语言模型(LLMs)和基于扩散的方法创建合成模糊图像的管道。如图3b所示,该过程首先使用GIT方法从真实数据集中提取简洁的图像描述。GPT-使这些描述多样化,指定了模糊类型。Stable Diffusion模型将这些描述转换为×图像,然后由于计算限制将其升级为×。经过模糊检测和手动验证以消除错误,生产了个合成样品。
4)此外将过滤过程应用于来自DIV2K,CUHK和EBD验证集的真实样本,从而为ReBlurSR-Test集收集了个样本。
总的来说,ReBlurSR包含张真实模糊图像和张用于训练目的的合成模糊图像,以及张用于测试的真实模糊图像。这个集合比广泛使用的DIV2K大近三倍,比现在可以在网上公开使用的Flickr2K大倍。根据之前的模糊研究,ReBlurSR数据集包含了自然图像中两种常见的模糊类型:1)散焦模糊主要由光圈设置引起。较小的光圈会减少它,但较大的透镜会对焦平面外的物体造成离焦模糊,离焦平面的距离越大,离焦模糊越严重。现代摄影经常用它来模糊不太重要的区域来突出前景。2)动态模糊是由曝光过程中的相对运动引起的,比如快速移动的物体或相机抖动,在需要长时间曝光的弱光条件下更为明显。而以前的研究集中在纠正无意的模糊,工作旨在保持专业的运动模糊。对于细粒度评估,基于以下标准进行了详细的数据集划分:
模糊区域大小:根据模糊区域占图像总尺寸的比例将每个样本分为三组:小(<%)、中(% ~ %)和大(>%)。在离焦模糊样本中,模糊区域大小主要落在小到中等范围,而在运动模糊样本中,模糊区域大小主要落在中到小和大范围。真实样本如图2b所示。
模糊强度:考虑到定量预测模糊强度的挑战,依靠人类视觉评估将图像分为三个强度级别:小(最小的边缘和纹理损失),中(明显的边缘重叠和明显的纹理损失)和重(广泛的边缘损失和几乎完全的纹理消除),如图2b所示。为了直观地评估分类质量,计算了不同强度子集的模糊区域的像素级梯度。如图3b所示,梯度随着强度级别的增加而减小,表明纹理和边缘的退化如预期的那样。
数据分析 在图3中,展示了ReBlurSR数据集高分辨率(HR)图像的分辨率、模糊类型、大小和强度的统计分布。数据集主要由大于×的高质量图像组成,与运动模糊相比,散焦模糊更高,可能是由于前者的应用更广泛。从图3b和图3c可以看出,模糊强度越低的样本,NIQE指标越好。此外,模糊强度和模糊区域大小之间存在相关性:模糊程度高的图像往往具有较大的模糊区域,而模糊区域较小的图像则表现出较少的模糊。
感知-模糊-自适应超分辨率
鉴于当前方法在模糊和一般数据上的不同结果,假设理想的模糊自适应BSR框架应满足以下标准:
—鲁棒性。该框架必须在不影响一般数据性能的前提下提高模糊图像的处理质量。
—效率。该框架应该与各种方法集成在一起,需要最少的修改,并且在推理中产生可以忽略不计的额外成本。
为了研究一般数据和模糊数据之间的关系,并评估当前模型的性能,使用FeMaSR进行了三个演示实验,具体如下:
(1)通过保持恒定的总训练数据量和改变模糊数据(ReBlurSR-Train)与一般数据的比例来探索数据多样性对FeMaSR微调的影响。图4a中的结果说明了性能权衡,一般数据的LPIPS分别在左右移动,模糊数据的LPIPS分别在左右移动,这表明增加特定数据类型可以提高各自类别的性能,但不能同时提高两者。
(2)为了研究随时间的收敛动态,统一了两种数据类型进行扩展微调(370k迭代),并跟踪了FeMaSR从240k到370k迭代的性能。图4b显示了一般数据和模糊数据的LPIPS分数分别在 ~ 和 ~ 之间振荡,显示出负相关。这进一步凸显了两种数据类型之间的冲突,这不是简单地通过统一训练就能解决的。
(3)为了探究为什么模型在单类数据下表现出色,而在合并后表现不佳,分析了模糊数据上的对抗损失。通过比较HR blur数据上模糊像素和非模糊像素之间的平均判别器损失,图4c显示,随着模糊强度和模糊区域大小的增加,模糊区域的损失相对于非模糊区域从% ~ %上升到% ~ %,这表明模糊区域的分类器的置信度和判别能力下降。
总之,现有的框架在同时处理模糊数据和一般数据时,在鲁棒性和效率方面存在问题。它不能同时在两种数据类型上提高性能,这表明存在鲁棒性问题,而按数据类型划分推理参数与效率原则相矛盾。为了解决这些挑战,提出了感知-模糊-自适应超分辨率(PBaSR)框架,该框架有效地将模糊和一般数据合并到一个统一的模型中,而无需额外的推理或部署成本。PBaSR框架包含交叉解缠模块(CDM)和交叉融合模块(CFM),将在下面的章节中详细介绍。
交叉解缠模块 交叉解纠缠模块(Cross Disentanglement Module, CDM)。从图4a和4b中可以看出,在不同的数据类型上进行单独的训练可以提高各自数据集的性能。受此启发,创建了带有两个分支的CDM,用于独立处理每种数据类型,从而在样本级别上对一般数据和模糊数据进行分离。CDM的结构如图5所示。
首先,一般分支使用现有的训练策略处理一般数据,而独特的模糊分支则针对模糊数据进行训练。图4c表明,在传统无条件对抗学习框架下训练模糊数据会导致次优结果,其中模糊区域判别器置信度降低是主要因素之一。考虑到模糊和非模糊区域之间的 ~ GAN损失差异,主张在模糊分支中进行定制的损失调整,以便更好地优化模糊区域,与一般数据策略不同,将先验信息作为额外的损失计算指南是有益的。因此,来自ReBlurSR数据集的模糊图,来源于人工注释和通过D-DFFNet自动检测,二进制转换阈值为,已经集成。这些图的手动与自动标注比例约为%:%,重新定义的模糊分支的GAN损失。如Eq.(1)所示,将模糊映射M与输入图像连接,然后输入到鉴别器DB中进行条件判别。通过将模糊图作为条件因素,以尊重不同区域的不同特征的方式计算对抗损失LDB。
通过这些调整,模糊分支将更加熟练和有效地处理模糊数据。为了支持这一点,执行了一个简单的实验来评估整合先验模糊地图条件的影响。如表1所示,与基线分类器在ReBlurSR-Test HR数据上的性能相比,采用模糊条件导致模糊像素的损失减少了约,模糊样本的LPIPS提高了,而对非模糊区域的损失没有明显影响。此外,对特定样本上的鉴别器损失残差图的视觉分析(如图6所示)进一步证实,加入模糊条件导致模糊区域内的损失显著降低。这些观察证实,模糊图作为一个有价值的辅助更准确地辨别模糊区域。
交叉融合模块 CDM能够在模糊和一般数据上获得值得赞扬的结果。然而目标是避免在推理过程中增加复杂性和计算需求,这是CDM对双重参数和额外数据类型区分的要求。最初的想法可能是在训练后平均分支权重,但这种方法达不到预期的效果。表2显示,虽然每个分支在其目标数据类型上表现出色,比统一训练基线平均LPIPS提高约,但加权平均后的性能(表2 col.4)仍与统一基线(表2 col.1)相似,表明存在持续的次优权衡。这一问题的根源在于训练过程中各部分之间的融合不足。为了克服这一点并在不增加额外推理成本的情况下提高性能,提出了交叉融合模块(CFM),其结构和操作阶段详见下文和图7。
在训练阶段,目标是使一般分支和模糊分支的权重有效地沟通。考虑到在多gpu训练设置中对效率的需求,目标是在提高质量的同时优化通信成本。因此,最优的通信策略应该满足两个关键标准:首先,为了在两种数据上都达到最优结果,一般WG和模糊WB分支的权重应该表现出一定程度的差异;其次,为了保证有效的融合和推理,通信间隔不宜过长。因此,采用权值插值作为跨分支通信的一种经济有效的方法,在不频繁更新的情况下动态平衡权值距离。具体而言,在自适应交叉分支距离的每k次迭代中插值一般分支WG和模糊分支WB的权值,并将这些插值的权值(W ' G,B)应用到后续迭代中。
训练结束后,将两个分支的权值合并,形成一个统一的模型。这涉及对两个分支进行等量插值,以建立最终的模型参数,表示为WP BaSR = WG/2 + WB/2。
CFM和CDM不修改模型的体系结构,确保推理过程与原始模型保持一致,并避免了额外的推理部署成本。CFM在训练过程中保持不同分支之间的权值距离的作用允许在推理过程中通过简单的插值平均有效地融合不同数据类型的先验。为了清楚起见,进行了消融分析,比较了经过CFM训练和没有经过CFM训练的CDM。如图8a所示,CFM有效地将两个支路权值之间的余弦距离约束在一定范围内,而没有CFM的距离波动明显。此外,从图8b可以看出,不加CFM的CDM在一般数据和模糊数据上的LPIPS与统一训练基线在同一区域发生了纠缠,而CFM的LPIPS提高了。
4实验
实验设置
训练数据集:对于一般训练数据,使用了广泛认可的超分辨率数据集,包括DIV2K、Flickr2K和DIV8K,涵盖了广泛的高分辨率真实图像。对于模糊数据,使用ReBlurSR数据集作为主要来源。将BSRGAN的退化模型应用于低分辨率(LR)图像合成。
测试数据集:使用包括DIV2K、Urban100、BSDS100、Manga109、Set14和Set5在内的基准数据集在一般数据上评估性能。对于模糊数据,使用ReBlurSRTest数据集评估方法。LR输入由BSRGAN和RealESRGAN的混合退化产生。考虑到实验效率,在所有消融分析中,DIV2K、作为默认的通用基准。
评估指标 使用感知指标作为主要的性能评估指标,采用了六个被广泛认可的指标来评估我们提出的方法的性能,即学习感知图像斑块相似度(LPIPS)、视觉信息逼真度(VIF)、梯度幅度相似偏差(GMSD)、视觉显著性指数(VSI)、深度图像结构和纹理相似度(DISTS)和基于注意力的混合图像质量(AHIQ)评估。
实现细节 在实现中,分支初始权值基于一般BSR任务的权值,使用官方发布的权值。每个分支的优化过程是独立进行的,使用一个学习率为1 × ?4的Adam优化器。将每个GPU的批处理大小和HR的补丁大小分别设置为和。每批数据由等量的一般数据和模糊数据组成。CFM中的λ0和k分别设为和。训练共跨越,次迭代,在两个NVIDIA V100 gpu上执行,PyTorch作为编程框架。所有实验均采用x4放大进行。
与最先进方法的比较
为了进行全面合理的对比分析,将Real-ESRGAN、FeMaSR、SRFormer这三种被广泛认可的BSR方法进行PBaSR。将它们与其他四种最先进的(SOTA) BSR方法(包括SwinIR、MM-RealSR、CAL-GAN和HAT)进行了比较,评估了它们在一般和模糊数据上的性能。为了确保比较的公平性,这些SOTA方法的结果是使用从它们的官方存储库中获得的代码和权重得出的。此外,还进行了对比实验,以评估在消融研究中使用ReBlurSR数据集进行微调的影响,从而更细致地了解我们的框架在不同训练条件下的性能。定量和定性结果如表3和图9所示。
如表3所示,PBaSRFeMaSR(表3 col.9)优于用于模糊数据的领先方法HAT(表3 col.6),在LPIPS中改进 ~ ,同时在一般数据(表3最后6行)上保持与所有指标上表现最佳的FeMaSR(表3 col.4)和SRFormer(表3 col.7)相当的结果。图9给出了几个例子,展示了不同类型的模糊。以图9中的第一个样本为例,大多数一般的BSR方法(图9)都不适用。1、2和4.)在模糊区域生成伪影和过度纹理化。相比之下PBaSR(图9 col5)在视觉和数量上都表现出优越的模糊保留。虽然CAL-GAN(图9色3行,第1行)保留了相对较好的模糊,但它往往在聚焦区域过于光滑并失去纹理(图9色3,第2行)。然而,PBaSR不仅增强了模糊区域的恢复(图9行)。综上所述,定量和定性分析均表明,PBaSR有效缓解了当前方法在模糊图像盲超分辨率方面的局限性,并在一般盲超分辨率任务中保持了相对的纹理恢复性能。
消融研究
模糊数据的可扩展性 为了评估PBaSR在不同模糊类型下的灵活性,按模糊类型对ReBlurSR-Train集进行了分类,并在训练期间逐步包括各种模糊类型,从散焦开始,然后是运动模糊数据。在ReBlurSR-Test中对不同模糊的子集进行了详细的评估。表4显示,添加散焦数据(从第1行到第2行和第4行到第5行)可以提高散焦模糊测试的性能,提高 LPIPS,而不会对一般数据性能产生严重的负面影响。同样,合并所有的模糊数据(从第2行到第3行和第5行到第6行)会导致所有模糊数据的增强。这些发现揭示了PBaSR在不同模糊类型之间的强大可扩展性,有效地适应新的模糊类别,同时保持先前训练类型的性能。
训练数据的效果 为了阐明PBaSR的有效性,基于FeMaSR进行了广泛的评估,检查不同类型和数量的训练数据如何影响性能。图10a显示,在没有PBaSR(灰色点)的情况下,仅对一般或模糊数据进行训练可以改善特定类别的结果,但会导致其他类别的性能下降。合并两种数据类型进行训练不能在两个区域同时获得收益(天蓝色点)。相反,PBaSR(蓝点)显示了显著的改进这两种数据类型,证明了CDM和CFM对这些类别的成功分离和集成。
跨锚方法结构的泛化性 为了评估PBaSR在不同SR模型体系结构中的通用性,在三种广泛认可的体系结构上实现了PBaSR框架:CNN、VQV AE和transformer。表5显示PBaSR在这些主流SR架构中产生了显著的增强。此外,框架在不同大小和类型的模型(从SRFormer到FeMaSR)中被证明是有效的,无论模型规模如何,都显示出一致的性能改进。值得注意的是,SRFormer和FeMaSR的收益更高,这可能是由于它们具有更好的拟合能力。
CFM传播策略的效果 为了评估CFM通信策略对CFM的影响,使用PBaSRFeMaSR对CFM的跨分支插补频率和比例进行了消融研究。图10b显示,过于频繁或不频繁的通信(k = 1或k = )会使LPIPS降低 ~ ,原因是分支权值之间的距离不合适,导致插值结果不佳。图10c表明,缺少通信(λ0 = 1)或过于激进的插值(λ0 = 0)会对性能产生负面影响,而λ0值在 ~ 之间确保性能稳定。
5结论
这项工作探索了真实世界模糊图像的盲超分辨率,并创建了包含张不同模糊图像的ReBlurSR数据集。提出了一种新的感知模糊自适应超分辨率(PBaSR)框架来解决当前方法在处理模糊数据方面的局限性。对各种基准的广泛评估表明,PBaSR显著提高了现实世界模糊图像的性能,同时在一般数据上保持了良好的结果,而不会产生额外的推理或部署成本。
