Restoring Vision in Adverse Weather Conditions with Patch-Based Denoising Diffusion Models

ÖZDENIZCI O, LEGGENSTEIN R. Restoring vision in adverse weather conditions with patch-based denoising diffusion models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(7): 8202-8215.

https://github.com/IGITUGraz/WeatherDiffusion

条件扩散模型

条件扩散模型的核心思想是学习一个条件反射过程 $p_{θ} (x_{0} : T ∣ \tilde{x})$ ，从而无需修改针对 $x$ 的扩散过程 $q (x_{1} : T ∣ x_{0})$ ，使得采样的 $x$ 在给定条件 $\tilde{x}$ 下，能够高度保真地反映对应的数据分布。

在训练过程中，我们从配对数据分布（如一张清晰图像 $x_{0}$ 和一张天气降质的图像 $\tilde{x}$ ）中采样 $(x_{0}, \tilde{x}) \sim q (x_{0}, \tilde{x})$ ，并学习一个条件扩散模型。在此模型中，我们将 $\tilde{x}$ 作为输入提供给反向过程：

\begin{matrix} (18) & p_{θ} (x_{0} : T ∣ \tilde{x}) = p (x_{T}) \prod_{t = 1}^{T} p_{θ} (x_{t - 1} ∣ x_{t}, \tilde{x}) \end{matrix}

我们先前通过公式 $(11)$ 优化噪声估计网络的表达，现在则使用 $ϵ_{θ} (x_{t}, \tilde{x}, t)$ 。对于基于图像的条件输入，输入 $x$ 和 $\tilde{x}$ 会在通道维度上进行拼接，从而得到一个六通道的输入图像。

需要注意的是，让反向过程以 $\tilde{x}$ 为条件，并不影响其与隐式采样的兼容性。在此框架下，从 $x_{t - 1} \sim p_{θ} (x_{t - 1} ∣ x_{t}, \tilde{x})$ 采样的公式如下：

\begin{matrix} (19) & \begin{aligned} x_{t - 1} = & \sqrt{{\bar{α}}_{t - 1}} (\frac{x_{t} - \sqrt{1 - {\bar{α}}_{t}} \cdot ϵ_{θ} (x_{t}, \tilde{x}, t)}{\sqrt{{\bar{α}}_{t}}}) \\ + \sqrt{1 - {\bar{α}}_{t - 1}} \cdot ϵ_{θ} (x_{t}, \tilde{x}, t) \end{aligned} \end{matrix}

该公式定义了一条从 $x_{T} \sim N (0, I)$ 开始的、朝向 $x_{0}$ 的确定性路径，并保证了生成结果对条件 $\tilde{x}$ 的保真度。

基于块的扩散式图像恢复

图像修复的基准测试集以及现实世界中的图片，都包含各种尺寸的图像。相反，现有的生成模型架构大多是为固定尺寸的图像处理而定制的。最近有一项扩散模型研究工作探索了尺寸无关的模糊图像恢复。他们的模型使用固定尺寸的图像块进行优化，然后在测试时通过简单地向模型提供任意尺寸的输入来进行去模糊，因此严格依赖于一种修改过的全卷积网络架构。这也导致了高昂的测试时计算需求，以确保整个图像能在内存中处理。与之不同，我们在测试时也将图像分解为重叠的固定尺寸块，并在采样过程中将它们融合。

为什么分块

扩散模型通常要求固定输入尺寸（如256x256）。处理任意大图时，直接缩放会丢失细节，而分块处理可以保持局部细节，并允许在有限显存下处理大图。

基于块的图像修复的总体思路是：对从图像中提取的局部块进行操作，并以最优方式合并结果。这种方法迄今为止的一个重要缺点是，生成的图像可能包含来自独立修复的中间结果的合并伪影，这在传统修复方法中已被广泛研究。我们将通过引导反向采样过程，使相邻块之间趋于平滑，从而解决这个问题，避免出现边缘伪影。

块间不一致

如果每个块独立进行扩散逆过程（从噪声生成清晰块），相邻块的边界处会出现不连续、撕裂或模糊，因为模型不知道块之间的关系。

我们将任意大小的未知真实图像定义为 $X_{0}$ ，将天气降质的观测图像定义为 $\tilde{X}$ ，并将 $P_{i}$ 定义为一个与 $X_{0}$ 和 $\tilde{X}$ 维度相同的二值掩码矩阵，指示图像中第 $i$ 个 $p \times p$ 块的位置。在训练方法中我们学习条件反向过程：

\begin{matrix} (20) & p_{θ} (x_{0 : T}^{(i)} ∣ {\tilde{x}}^{(i)}) = p (x_{T}^{(i)}) \prod_{t = 1}^{T} p_{θ} (x_{t - 1}^{(i)} ∣ x_{t}^{(i)}, {\tilde{x}}^{(i)}) \end{matrix}

其中 $X_{0}^{(i)} = Crop (P_{i} \circ X_{0})$ 和 ${\tilde{X}}^{(i)} = Crop (P_{i} \circ \tilde{X})$ 表示来自训练集图像对 $(X_{0}, \tilde{X})$ 的 $p \times p$ 图像块， $Crop (\cdot)$ 操作从 $P_{i}$ 指示的位置提取图像块。训练期间，我们在图像尺寸的完整范围内随机采样 $p \times p$ 图像块的位置。

我们通过从网格状排列的解析方案中提取所有重叠的 $p \times p$ 图像块，来分解任意大小的图像 $X$ 。我们在整个图像上考虑一个网格状排列，其中每个网格单元包含 $r \times r$ 像素，并通过在水平和垂直维度上以步长 $r$ 移动此网格来提取所有 $p \times p$ 图像块。我们将 $D$ 定义为提取的图像块总数，定义了一个重叠图像块位置的字典。

当基于相邻的重叠图像块执行条件反向采样时，对于重叠的网格单元将获得不同的修复估计。我们通过在任意给定的去噪时间步 $t$ ，对重叠图像块区域中的每个像素基于其平均估计噪声来执行反向采样，从而缓解此问题。我们的方法有效地引导了反向采样过程，以确保在所有相关的相邻图像块之间具有更高的保真度。更具体地说，在采样的每个时间步 $t$ ：

（1）我们使用 $ϵ_{θ} (x_{t}^{(d)}, {\tilde{x}}^{(d)}, t)$ 估计所有重叠图像块位置 $d \in {1, \dots, D}$ 的加性噪声；

（2）将这些重叠的噪声估计累积到与整个图像尺寸相同的矩阵 ${\hat{Ω}}_{t}$ 中它们各自的位置；

（3）根据每个像素接收到的估计数量对 ${\hat{Ω}}_{t}$ 进行归一化；

（4）使用平滑后的全图噪声估计 ${\hat{Ω}}_{t}$ 执行一次隐式采样更新。

算法2 基于块的扩散式图像恢复

输入: 天气退化的图像 $\tilde{X}$ ,条件扩散模型 $ϵ_{θ} (x_{t}, \tilde{x}, t)$ ,隐式采样步骤 $S$ , 包含 $D$ 个重叠图像块位置的字典.

$X_{t} \sim N (0, I)$
for $i = S, \dots, 1$ do
$t = (i - 1) \cdot T / S + 1$
$t_{next} = (i - 2) \cdot T / S + 1$ if $i > 1$ else $0$
${\hat{Ω}}_{t} = 0$ and $M = 0$
for $d = 1, \dots, D$ do
$x_{t}^{(d)} = Crop (P_{d} \circ X_{t})$ and ${\tilde{x}}^{(d)} = Crop (P_{d} \circ \tilde{X})$
${\hat{Ω}}_{t} = {\hat{Ω}}_{t} + P_{d} \cdot ϵ_{θ} (x_{t}^{(d)}, {\tilde{x}}^{(d)}, t)$
$M = M + P_{d}$
end for
${\hat{Ω}}_{t} = {\hat{Ω}}_{t} ⊘ M$ // $⊘$ 表示逐元素除法
$X_{t} \leftarrow \sqrt{{\bar{α}}_{t_{next}}} (\frac{X_{t} - \sqrt{1 - {\bar{α}}_{t}} \cdot {\hat{Ω}}_{t}}{\sqrt{{\bar{α}}_{t}}}) + \sqrt{1 - {\bar{α}}_{t_{next}}} \cdot {\hat{Ω}}_{t}$
end for
return $X_{t}$

我们的方法不同于在采样后平均重叠最终重建结果的简单基线方法。如果在采样后应用，这种方法会破坏局部图像块分布与学习到的后验分布的保真度。然而，与我们的基于重叠图像块的引导采样原理不同但精神相似，最近也有一些成功的图像编辑方法基于在潜在空间中引导反向过程，以从学习到的密度的一个压缩子空间中采样。

需要注意的是，较小的 $r$ 会增加图像块之间的重叠，从而提高平滑度，但同时也会增加计算负担。我们使用 $p = 64$ 或 $128$ 像素用于 $P_{i}$ ，以及 $r = 16$ 像素。在处理之前，我们将整个图像的尺寸调整为 $16$ 的倍数。

我们提出的基于块的条件扩散建模方法是与任务无关的，并且当在训练时观察到来自多种天气降质混合的示例图像对时，可以进一步扩展到同时处理多种天气破坏

意义

处理任意大小的高分辨率图像。
保持全局一致性和局部细节。
适用于多种图像修复任务（去雨、去雪、去雾等），且无需在测试时指定任务类型（模型从数据中自动学习混合分布）。

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🤖 智能体

🐬 mysql

🧪 jest

Restoring Vision in Adverse Weather Conditions with Patch-Based Denoising Diffusion Models

DDPM

前向过程

反向过程

损失函数

DDIM

条件扩散模型

基于块的扩散式图像恢复

算法2 基于块的扩散式图像恢复

输入: 天气退化的图像 $\tilde{X}$ ,条件扩散模型 $ϵ_{θ} (x_{t}, \tilde{x}, t)$ ,隐式采样步骤 $S$ , 包含 $D$ 个重叠图像块位置的字典.

Restoring Vision in Adverse Weather Conditions with Patch-Based Denoising Diffusion Models ​

DDPM ​

前向过程 ​

反向过程 ​

损失函数 ​

DDIM ​

条件扩散模型 ​

基于块的扩散式图像恢复 ​

算法2 基于块的扩散式图像恢复 ​

输入: 天气退化的图像X~,条件扩散模型ϵθ(xt,x~,t),隐式采样步骤S, 包含D个重叠图像块位置的字典. ​

Restoring Vision in Adverse Weather Conditions with Patch-Based Denoising Diffusion Models

DDPM

前向过程

反向过程

损失函数

DDIM

条件扩散模型

基于块的扩散式图像恢复

算法2 基于块的扩散式图像恢复

输入: 天气退化的图像 $\tilde{X}$ ,条件扩散模型 $ϵ_{θ} (x_{t}, \tilde{x}, t)$ ,隐式采样步骤 $S$ , 包含 $D$ 个重叠图像块位置的字典.