百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

cvpr 2024|注意力校准用于解缠结的文本到图像个性化

moboyou 2025-05-13 22:12 4 浏览



Attention Calibration for Disentangled Text-to-Image Personalization

研究背景

近年来,大规模文本到图像(T2I)模型取得了显著进展,能够生成高质量和多样化的图像内容。个性化技术进一步允许用户仅通过几张参考图像来定制新概念的生成。然而,一个有趣且未解决的问题是:是否可以从单个参考图像中捕获多个新颖概念?现有方法通常无法保持与参考图像的视觉一致性,并消除概念之间的相互影响。

研究意义

本文提出了一种注意力校准机制,旨在提高T2I模型在概念级别的理解能力。该方法能够从单个图像中学习多个解缠结的概念,并生成具有这些学习概念的定制图像。这不仅能够增强T2I模型的灵活性和个性化能力,还能在图像编辑、艺术创作等领域具有广泛的应用前景。

文献综述

文本到图像生成模型

T2I模型的目标是根据给定的文本描述生成对应的图像。随着大规模数据集和先进语言模型的发展,T2I模型取得了显著进步。特别是扩散模型,在图像生成质量上领先其他方法。然而,这些模型在生成特定对象(如定制家具)时仍面临挑战。

文本引导的图像编辑

随着强大的T2I模型的出现,众多研究致力于增强扩散模型的可控性以满足用户的多样化需求。这些方法通过优化交叉注意力单元、使用区域控制或结合预训练的扩散模型来实现图像的局部或全局修改。

T2I个性化

个性化技术通过用户提供的图像使扩散模型学习新概念。这些方法通常依赖于包含3-5张图像的小数据集,甚至单张图像。然而,现有方法在处理单张图像以获取多个概念时仍面临挑战。

具体方法

本文提出了DisenDiff方法,通过注意力校准机制来优化T2I模型,使其能够从单个图像中理解多个概念。具体方法如下:

引入新的可学习修饰符:与类别绑定以捕获多个概念的属性。

注意力校准:

绑定约束:通过最小化修饰符和对应类别之间的注意力图交集,使修饰符聚焦于相关概念。

分离与加强策略:通过最小化不同类别注意力图的重叠区域,确保概念的独立性和完整性。

抑制技术:通过抑制不重要的激活区域,获得更清晰的类别注意力图。

训练损失:包括基础损失、绑定损失和分离与加强损失,共同优化模型的注意力图。


图1

标题:给定单个用户图像,提出的方法能够为每个包含的概念生成定制图像

描述

  • 输入:单个图像,包含多个概念(例如,一个男人和一个女人)。
  • 输出独立概念:分别为每个概念生成定制图像(例如,单独的男人和女人)。组合概念:将多个概念组合在一起生成定制图像(例如,男人和女人在一起)。
  • 特点:保持与输入图像的高保真度和身份一致性。根据不同的文本提示实现满意的交互式生成。

图2

标题:Custom Diffusion的失败案例

描述

  • 输入:包含椅子和台灯的图像。
  • 目标文本:“一盏V*2台灯”。
  • 结果:Custom Diffusion生成的图像不仅包含不匹配的台灯,还错误地包含了椅子。
  • 对比:提出的方法能够准确生成只包含指定台灯且外观与输入图像一致的图像。

图3

标题:方法概述

描述

  • 关键组件文本编码器:将输入文本编码为键(K)和值(V)矩阵。扩散U-Net:预测添加的噪声,并通过交叉注意力机制整合文本特征。
  • 约束:对关键令牌(如修饰符和类令牌)的交叉注意力图施加约束,以确保准确表示多个概念。

公式1,是扩散模型的训练目标函数,用于预测添加的噪声。其中,x是输入图像,y是输入文本,ε是随机噪声,z_t是在时间步t的潜在噪声代码,εθ是扩散模型预测的噪声,τθ是文本编码器的输出。

图4

标题:生成的注意力图和图像比较

描述

  • 第一行:Custom Diffusion生成的注意力图和图像,注意力图混乱,导致生成的图像不准确。
  • 第二行:提出的方法生成的注意力图和图像,注意力图清晰准确,生成的图像与输入图像高度一致。
  • 关键点:修饰符令牌(V*i)的注意力图通过与类令牌的绑定约束得到校正。通过分离和加强(s&s)策略减少不同类令牌注意力图的重叠。

公式2,是计算交叉注意力图的公式。Q是查询矩阵,K是键矩阵,d是键和查询的投影维度。通过Softmax函数将点积结果归一化,得到注意力图A_t。

公式3,是绑定约束的损失函数,用于将修饰符令牌V*i的注意力图A_{m_i_t}与其对应的类令牌注意力图A_{c_i_t}绑定在一起。通过计算两个注意力图的交并比(IoU)的补数来鼓励它们之间的紧密对齐。

公式4,是用于最小化不同类令牌注意力图重叠的损失函数。通过直接计算两个注意力图的交集来防止它们的激活区域重叠。

公式5,是分离和加强(s&s)策略的损失函数,用于在避免重叠的同时保持类令牌的完整性。通过计算两个注意力图的交并比来平衡这两个目标。

公式6,总训练损失由三部分组成:基础损失(L_{base})、绑定损失(L_{bind})和分离与加强损失(L_{s&s})。绑定损失用于将新修饰符与其对应的类别绑定,分离与加强损失用于分离不同类别的注意力图并加强其完整性。G表示高斯滤波,f_m表示元素乘法操作。

图5

标题:独立和组合概念的定性结果

描述

  • 独立概念:生成的图像能够准确捕捉输入图像中每个概念的外观,并且没有相互干扰。
  • 组合概念:生成的图像将多个概念组合在一起,同时保持每个概念的视觉一致性。
  • 对比:DreamBooth要么缺少关键概念属性,要么严重过拟合输入图像。Custom Diffusion在保持概念外观或解耦输入图像方面仍然存在困难。提出的方法在视觉保真度和编辑有效性之间取得了最佳平衡。

图6

内容:定量评估结果

  • 子图6(a):展示了不同方法在十个数据集上的平均评估结果。
    • 纵轴表示图像对齐度(Image Alignment)和文本对齐度(Text Alignment)的分数。
    • 横轴表示不同的评估指标和方法,包括我们的方法(DisenDiff,绿色)、Textual Inversion(TI)、DreamBooth(DB)和Custom Diffusion(CD)。
    • 结果显示,DisenDiff在图像对齐度上表现最佳,尤其是在Concept 2上,同时在文本对齐度上也保持了与其他方法相当的水平。
  • 子图6(b):消融研究结果,评估了不同组件对模型性能的影响。
    • 移除L_bind损失、L_s&s损失、抑制策略、高斯滤波以及应用两次抑制等设置下的性能变化。
    • 结果表明,完整的DisenDiff模型在图像对齐度和文本对齐度之间达到了最佳平衡。

图7

内容:个性化概念修复应用示例

  • 展示了给定输入图像和掩码后,模型能够无缝地将学习到的概念修复到掩码区域。
  • 示例中,输入图像包含一张桌子和一盏灯,掩码区域覆盖了桌子的一部分。通过修改文本提示,用户可以轻松地在掩码区域内生成与输入图像风格一致的新内容。

图8

内容:与LoRA集成的应用示例

  • 展示了将DisenDiff模型与LoRA参数结合,以增强图像生成的语义表达能力。
  • 示例中,通过引入LoRA参数,生成的图像在细节上(如纹理)更加丰富和准确。

图9

内容:扩展到三个概念的应用示例

  • 展示了DisenDiff模型在处理包含三个概念的输入图像时的能力。
  • 通过应用L_s&s损失来解耦这三个概念,模型能够分别理解和生成每个概念。

相关推荐

cvpr 2024|注意力校准用于解缠结的文本到图像个性化

AttentionCalibrationforDisentangledText-to-ImagePersonalization研究背景近年来,大规模文本到图像(T2I)模型取得了显著进展,能...

1080P的显示,4K的享受?NVIDIA DSR游戏实测!

游戏玩家对画质的要求越来越高,因此每到新一代显卡推出的时候,除了游戏性能的提升之外,也会采用提升画质的新技术。NVIDIA最新的Geforce900系列显卡也不例外,一起推出的DSR技术号称可以在1...

「学习OpenCV4」OpenCV线性滤波与非线性滤波总结

本文分享内容来自图书《学习OpenCV4:基于Python的算法实战》,该书内容如下:第1章OpenCV快速入门;第2章图像读写模块imgcodecs;第3章核心库模块core;第4章...

增益映射耦合局部正则化的图像重构算法

朱莉(西安科技大学计算机学院,陕西西安710054)摘要:针对当前的图像重构方法在对多帧超分辨率图像复原时,存在明显的模糊效应与振铃效应的不足,提出增益映射控制耦合局部正则化的图像重构算法。首...

图像处理——5种常见的平滑滤波

平滑滤波是一种简单又常见的图像处理操作。平滑图像的目的有很多,但通常都是为了减少噪声和伪影。在OpenCV中共有5种平滑滤波操作,分别是以下几种:测试代码如下:#include<iostream...

C# 图像处理技术——简单的滤波去噪

在C#中,可以使用System.Drawing命名空间中的类来进行图像处理和滤波去噪操作。以下是一个示例代码,演示如何使用平均滤波器进行简单的去噪处理:usingSystem.Drawing;us...

Java,OpenCV,图像模糊,归一化均值滤波,中值滤波器,高斯模糊

图像模糊图像模糊是图像处理中最简单和常用的操作之一,其主要目的之一是给图像预处理的时候降低图像噪声。图像模糊方法可以总结如下:1、归一化均值滤波器(API为blur())2、高斯滤波器(API为Ga...

带频偏校准的GMSK解调器设计与实现

郑婧怡1,高绍全1,姜汉钧1,张春1,王志华1,2,贾雯2(1.清华大学微电子所,北京100084;2.深圳清华大学研究院,广东深圳518055)摘要:提出了一种在零中频低功耗蓝牙接收机中使用...

图像滤波去噪方法及应用场景

在图像处理中,不同滤波方法针对不同类型的噪声和场景具有特定优势。以下是三种常见滤波器的特点和应用场景总结:1.高斯滤波(GaussianFilter)原理:基于高斯函数的加权平均,对邻域像素进行平...

多体系统动力学仿真软件(DAP)

多体系统动力学仿真软件(DAP)-北京西交智众软件科技有限公司–DAP软件简介DAP(DynamicsAnalysisPlatform)软件,源自西南交通大学沈志云院士带队轨道交通运载系统全国...

精品博文图文详解Xilinx ISE14.7 安装教程

在软件安装之前,得准备好软件安装包,可从Xilinx官网上下载:http://china.xilinx.com/support/download/index.html/content/xilinx/z...

酷睿 Ultra 5 和 Ultra 7,或者i5和i7差距多大?

#我来唠家常#提到ultra,我觉得看这个题目,应该主打轻薄本,或者设计本。分两个问题看:ultra7或者i7的优势,ultra相对老款处理器的优势Ultra7的最大优势是:多了2个大核心,这两个大...

直流-直流(DC-DC)变换电路

直流-直流(DC-DC)变换电路,可以将一种直流电源经过变换电路后输出另一种具有不同输出特性的直流电源,可以是一种固定电压或可调电压的直流电。按照电路拓扑结构的不同,DC-DC变换电路可以分成两种形式...

Energies CL致命错误

期刊基础信息·刊号:ISSN1996-1073·全称:Energies·影响因子:3.2·分区:Q2(能源与燃料类)·版面费:2200瑞士法郎·年发文量:约4500篇CoverLett...

基于心电脉搏信号的无创血压算法研究

洋洋,陈小惠(南京邮电大学自动化学院,江苏南京210023)摘要:针对人体血压无创检测问题,提出了一种基于心电信号(Electrocardiogram,ECG)与光电容积脉搏波(Photople...