分享好友 资讯首页 频道列表

【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024

2024-06-17 15:1151990
 近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。CVPR(计算机视觉与模式识别会议)是计算机视觉和模式识别领域的顶级国际会议,旨在展示最新的研究进展和技术成就,推动这一领域理论与应用的前沿进展,并通过精选提交的高水平学术论文和实践工作,对学术界和工业界产生深远的影响。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。

基于文本引导的图像编辑任务允许用户使用简单的文字描述来指导修改一幅图像,无需具备复杂的图像编辑软件或专业知识即可实现编辑效果。用户可以通过输入文本对图像进行涉及颜色变更、物体添加或去除、风格转换等多种编辑的操作。这种交互式的编辑方式大大降低了图像编辑的门槛,使得创意表达更加便捷和个性化。

目前的一些先进图像编辑方法,例如prompt-to-prompt(P2P),通过替换与目标编辑术语相对应的源提示中的交叉注意力图来改变图像的特定区域。而Plug-and-Play(PnP)策略则是先从注意力层提取原始图像的空间特征和自注意力,再将它们注入到目标图像的生成过程中。在这些技术中,注意力层对于控制图像布局以及确立输入提示与生成图像之间的关联起着至关重要的作用。但是,对注意力层的不恰当调整可能会带来意外的编辑结果或者编辑失败。例如,在交叉注意力层进行编辑时,真实图像可能因此而失去预期效果,如尝试将人类编辑成机器人或将汽车颜色变更为红色的编辑尝试可能不会成功。

 

 

图1. 图像编辑的失败案例以及我们提出的方法成功编辑的结果

 

在我们的研究中,我们介绍了一种名为Free-prompt-Editing(FPE)的简洁而高效的算法。FPE通过在去噪阶段替换指定注意力层的自注意力图进行图像编辑,这一过程中解放了需要源提示的限制,这对实际的真实图像编辑场景极有价值。总体来说,我们的研究促进了对稳定扩散(Stable Diffusion)中注意力图的理解,并针对文本引导的图像编辑(Text-Image-Editing,简称TIE)提供了切实可行的解决策略。图2展示了FPE算法在合成图像上实施编辑的具体过程。

 

 

图 2:Free-prompt-Editing 在对合成图像进行编辑的过程示意图

 

Free-prompt-Editing伪代码如下:

 

 

图 3:Free-prompt-Editing 在合成图像编辑和真实图像编辑场景下的伪代码

 

图4展示了FPE的编辑结果,它成功地转换了原始图像的各种属性、风格、场景和类别。

 

 

图 4:Free-prompt-Editing 编辑结果示例

 

图5呈现了FPE技术应用于基于稳定扩散算法的其他定制模型中的编辑效果。观察这些成果,我们可以发现FPE技术能够高效地适用于各种扩散模型。它不仅成功实现了性别转换,把女孩变为男孩,还能够调整人物的年龄,使男孩呈现出10岁或80岁的特征;此外,它还能修改发型、变换头发色彩、替换背景乃至进行类别上的转变。

 

 

图 5:Free-prompt-Editing 编辑结果示例

 

图6对比展示了FPE与其他一些SOTA图像编辑技术的效果。无论是对真实照片还是合成图像,FPE均展现出了高效的编辑能力。在所有的案例中,FPE都能够实现与描述提示高度一致的精细编辑,同时最大限度地保留了原图的结构细节。

 

 

图 6:Free-prompt-Editing 与其他编辑方法的对比

 

为了更好地服务开源社区,这一算法的源代码即将贡献在自然语言处理算法框架EasyNLP中,欢迎各界从业人员和研究者使用。

阿里云人工智能平台PAI长期招聘正式员工/实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态AIGC大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。

论文信息

论文名字:Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing

论文作者:刘冰雁、汪诚愚、曹庭锋、贾奎、黄俊

论文pdf链接:https://arxiv.org/abs/2403.03431

 

举报 0
收藏 0
打赏 0
评论 0
钛虎科技机器人震撼发布:T170A“瑶光”“墨翟”引领具身智能新时代
2024年7月4日 —— 在全球瞩目的2024世界人工智能大会(WAIC)暨人工智能全球治理高级别会议盛大开幕之际,钛虎机器人科技有限公司在展会上隆重发布了最新研发成果——全新二代人形机器人T170A实体“瑶光”与“墨翟”。

0评论2024-07-055104

滴滴安全、杯杯直饮!海尔净水首创十级精滤
 7月1日,海尔鲜活水Pro+净水机新品发布,海尔净水首创行业十级精滤系统,实现从进水到滤芯到出水全水路精滤,过滤精度和洁净力再升级,定义行业净水新高度。同时,它还搭载海尔原创的鲜活水科技,首杯水即可直饮,24小时全时段保鲜,为用户升级“十级纯净,滴滴鲜活”的净水新体验。

0评论2024-07-045068

为中国高端用户量身定制!BWT富锶矿泉机新品上市
7月中旬,德国百年净水品牌BWT倍世将推出的全新产品——BWT富锶矿泉净饮机,不仅搭载S+矿泉水科技和四级净滤技术,每一滴水都富含锶矿物质,用户在家即可直饮矿泉水,还凭借纯净双出水设计满足全家饮水、洗菜、做饭等多重需求,更是通过IOT智慧物联系统带来智能化、可视化的净水交互体验,进一步升级高端家庭净水体验,推动净水行业迈入矿物净饮新时代。

0评论2024-07-045132

行业首个!海尔智家牵头家电家居一体化标准制定
近年来,随着居住水平的提高和家电设备的发展,消费者对居住环境的需求也在朝向智能化、整体化、定制化的方向发展,通过家电家居

0评论2024-07-045072

获评优秀!海尔智家成省内家电业唯一示范
在新一轮科技革命和产业变革推动下,颠覆性科技创新成果不断涌现,成为推动产业升级、经济发展的重要力量。而在家电行业均发力科

0评论2024-07-045071

央视走进海尔:生产电视,也生产影院级享受
在现代生活中,电视不止是呈现光影艺术的载体,也是提升生活品质的良伴。电视的画面清晰度、系统流畅度等都会直接影响观影体验。因此,用户也对电视提出了更高的要求,在选购产品时,不再局限于外观、价格等因素,转而更关注电视在视觉、听觉、操作、互联等方面的整体体验。

0评论2024-07-045294

央视走进海尔:生产厨电,也生产烹饪生活
中国作为美食大国,讲究民以食为天。工欲善其事,必先利其器,要想做一桌色香味俱全的饭菜,首先要选一套品质高、体验佳的厨房用具。小到炒锅、勺子,大到燃气灶、油烟机,都会影响厨房烹饪体验。

0评论2024-07-045074

台风要稳吹风要柔!00后模特刘怡菲:舒适用风选Leader
7月2日,“100个人,100种Leader”第五期用户故事《美丽生活,点亮美丽人生》正式上线。故事讲述了00后用户刘怡菲的工作与生活状态,工作时,她是台风稳健的超模新星,展现自己的专业实力;休息时,她是喜欢享受生活的年轻女孩,在Leader空调的柔风陪伴下追求自己的舒适生活。

0评论2024-07-045082

本周六 深圳南山 我和智能制造有个约会!附数百家参会企业名单
数智低碳出海驱动新质生产力架构如下:1、主办:深圳市智能化学会2、协办:中山大学深圳研究院、深圳市志奋领科技有限公司、深圳

0评论2024-07-035095

全球连冠后再引领!海尔全屋用水发布4大增长新引擎
为承接市场活力、赋能客户能力建设、持续夯实引领者的地位,7月3日上午,以“To C新引擎 懂水更懂家”为主题的海尔水联网2024年夏季客户峰会在长春召开。会上,海尔智家水联网市场总经理郑伟特别介绍了海尔全屋用水发展面临的机遇和挑战,并发布了本年度四大增长引擎,从产品、营销、模式、平台四个方面为客户赋能。

0评论2024-07-035086