cvpr 2024|注意力校准用于解缠结的文本到图像个性化

moboyou 2025-05-13 22:12 36 浏览

Attention Calibration for Disentangled Text-to-Image Personalization

研究背景

近年来，大规模文本到图像（T2I）模型取得了显著进展，能够生成高质量和多样化的图像内容。个性化技术进一步允许用户仅通过几张参考图像来定制新概念的生成。然而，一个有趣且未解决的问题是：是否可以从单个参考图像中捕获多个新颖概念？现有方法通常无法保持与参考图像的视觉一致性，并消除概念之间的相互影响。

研究意义

本文提出了一种注意力校准机制，旨在提高T2I模型在概念级别的理解能力。该方法能够从单个图像中学习多个解缠结的概念，并生成具有这些学习概念的定制图像。这不仅能够增强T2I模型的灵活性和个性化能力，还能在图像编辑、艺术创作等领域具有广泛的应用前景。

文献综述

文本到图像生成模型

T2I模型的目标是根据给定的文本描述生成对应的图像。随着大规模数据集和先进语言模型的发展，T2I模型取得了显著进步。特别是扩散模型，在图像生成质量上领先其他方法。然而，这些模型在生成特定对象（如定制家具）时仍面临挑战。

文本引导的图像编辑

随着强大的T2I模型的出现，众多研究致力于增强扩散模型的可控性以满足用户的多样化需求。这些方法通过优化交叉注意力单元、使用区域控制或结合预训练的扩散模型来实现图像的局部或全局修改。

T2I个性化

个性化技术通过用户提供的图像使扩散模型学习新概念。这些方法通常依赖于包含3-5张图像的小数据集，甚至单张图像。然而，现有方法在处理单张图像以获取多个概念时仍面临挑战。

具体方法

本文提出了DisenDiff方法，通过注意力校准机制来优化T2I模型，使其能够从单个图像中理解多个概念。具体方法如下：

引入新的可学习修饰符：与类别绑定以捕获多个概念的属性。

注意力校准：

绑定约束：通过最小化修饰符和对应类别之间的注意力图交集，使修饰符聚焦于相关概念。

分离与加强策略：通过最小化不同类别注意力图的重叠区域，确保概念的独立性和完整性。

抑制技术：通过抑制不重要的激活区域，获得更清晰的类别注意力图。

训练损失：包括基础损失、绑定损失和分离与加强损失，共同优化模型的注意力图。

图1

标题：给定单个用户图像，提出的方法能够为每个包含的概念生成定制图像

描述：

输入：单个图像，包含多个概念（例如，一个男人和一个女人）。
输出：独立概念：分别为每个概念生成定制图像（例如，单独的男人和女人）。组合概念：将多个概念组合在一起生成定制图像（例如，男人和女人在一起）。
特点：保持与输入图像的高保真度和身份一致性。根据不同的文本提示实现满意的交互式生成。

图2

标题：Custom Diffusion的失败案例

描述：

输入：包含椅子和台灯的图像。
目标文本：“一盏V*2台灯”。
结果：Custom Diffusion生成的图像不仅包含不匹配的台灯，还错误地包含了椅子。
对比：提出的方法能够准确生成只包含指定台灯且外观与输入图像一致的图像。

图3

标题：方法概述

描述：

关键组件：文本编码器：将输入文本编码为键（K）和值（V）矩阵。扩散U-Net：预测添加的噪声，并通过交叉注意力机制整合文本特征。
约束：对关键令牌（如修饰符和类令牌）的交叉注意力图施加约束，以确保准确表示多个概念。

公式1，是扩散模型的训练目标函数，用于预测添加的噪声。其中，x是输入图像，y是输入文本，ε是随机噪声，z_t是在时间步t的潜在噪声代码，εθ是扩散模型预测的噪声，τθ是文本编码器的输出。

图4

标题：生成的注意力图和图像比较

描述：

第一行：Custom Diffusion生成的注意力图和图像，注意力图混乱，导致生成的图像不准确。
第二行：提出的方法生成的注意力图和图像，注意力图清晰准确，生成的图像与输入图像高度一致。
关键点：修饰符令牌（V*i）的注意力图通过与类令牌的绑定约束得到校正。通过分离和加强（s&s）策略减少不同类令牌注意力图的重叠。

公式2，是计算交叉注意力图的公式。Q是查询矩阵，K是键矩阵，d是键和查询的投影维度。通过Softmax函数将点积结果归一化，得到注意力图A_t。

公式3，是绑定约束的损失函数，用于将修饰符令牌V*i的注意力图A_{m_i_t}与其对应的类令牌注意力图A_{c_i_t}绑定在一起。通过计算两个注意力图的交并比（IoU）的补数来鼓励它们之间的紧密对齐。

公式4，是用于最小化不同类令牌注意力图重叠的损失函数。通过直接计算两个注意力图的交集来防止它们的激活区域重叠。

公式5，是分离和加强（s&s）策略的损失函数，用于在避免重叠的同时保持类令牌的完整性。通过计算两个注意力图的交并比来平衡这两个目标。

公式6，总训练损失由三部分组成：基础损失（L_{base}）、绑定损失（L_{bind}）和分离与加强损失（L_{s&s}）。绑定损失用于将新修饰符与其对应的类别绑定，分离与加强损失用于分离不同类别的注意力图并加强其完整性。G表示高斯滤波，f_m表示元素乘法操作。

图5

标题：独立和组合概念的定性结果

描述：

独立概念：生成的图像能够准确捕捉输入图像中每个概念的外观，并且没有相互干扰。
组合概念：生成的图像将多个概念组合在一起，同时保持每个概念的视觉一致性。
对比：DreamBooth要么缺少关键概念属性，要么严重过拟合输入图像。Custom Diffusion在保持概念外观或解耦输入图像方面仍然存在困难。提出的方法在视觉保真度和编辑有效性之间取得了最佳平衡。

图6

内容：定量评估结果

子图6(a)：展示了不同方法在十个数据集上的平均评估结果。

纵轴表示图像对齐度（Image Alignment）和文本对齐度（Text Alignment）的分数。
横轴表示不同的评估指标和方法，包括我们的方法（DisenDiff，绿色）、Textual Inversion（TI）、DreamBooth（DB）和Custom Diffusion（CD）。
结果显示，DisenDiff在图像对齐度上表现最佳，尤其是在Concept 2上，同时在文本对齐度上也保持了与其他方法相当的水平。

子图6(b)：消融研究结果，评估了不同组件对模型性能的影响。

移除L_bind损失、L_s&s损失、抑制策略、高斯滤波以及应用两次抑制等设置下的性能变化。
结果表明，完整的DisenDiff模型在图像对齐度和文本对齐度之间达到了最佳平衡。

图7

内容：个性化概念修复应用示例

展示了给定输入图像和掩码后，模型能够无缝地将学习到的概念修复到掩码区域。
示例中，输入图像包含一张桌子和一盏灯，掩码区域覆盖了桌子的一部分。通过修改文本提示，用户可以轻松地在掩码区域内生成与输入图像风格一致的新内容。

图8

内容：与LoRA集成的应用示例

展示了将DisenDiff模型与LoRA参数结合，以增强图像生成的语义表达能力。
示例中，通过引入LoRA参数，生成的图像在细节上（如纹理）更加丰富和准确。

图9

内容：扩展到三个概念的应用示例

展示了DisenDiff模型在处理包含三个概念的输入图像时的能力。
通过应用L_s&s损失来解耦这三个概念，模型能够分别理解和生成每个概念。

matlab高斯滤波

上一篇：1080P的显示，4K的享受?NVIDIA DSR游戏实测!
下一篇：控制工程必收!EI会议投稿经验!

cvpr 2024|注意力校准用于解缠结的文本到图像个性化

图1

图2

图3

图4

图5

图6

图7

图8

图9

相关推荐

Linux环境中查看Oracle错误和警告日志信息

絮语----工作四年的碎碎念

SQL 中的 (+)用法

oracle常见问题处理

MYSQL经典面试题汇总

医院信息系统突发应急演练记录

Windows 11:已知问题和已解决问题列表(更新时间:2022年1月)

最全面的IBMS系统集成系统技术规格书，赶紧收藏起来!

Linux下开源BI工具Metabase本地化安装及配置详解

苹果停止更新Windows版QuickTime!