阿里云通义万相推出图像编辑模型ACE 实现自然语言图像交互

前沿科技
分享至
评论

  阿里云通义万相研发推出一款多功能视觉生成和编辑模型ACE(全能创作与编辑模型),从多模态处理能力上推动视觉创作的创新。ACE通过自然语言指令支持广泛的图像生成和编辑任务,允许用户通过多轮交互轻松完成复杂和精确的编辑请求,可应用于平面设计、个性化图像生成、去水印等场景,为普通用户和设计师发挥创意和提升效率提供了有力支持。该模型目前已经向全球开发者开源,在阿里云旗下魔搭社区、Huggingface、Github等开源社区上线。

阿里云通义万相推出图像编辑模型ACE 实现自然语言图像交互

  近年来,扩散模型作为一种强大的生成技术,在各个场景中得到广泛应用。然而,现有的基础扩散模型大多数专注于基于文本的视觉生成,而不支持多模态条件。此外,当前的视觉生成模型往往缺乏统一的框架,需针对特定任务进行单独调优,导致效率低下和灵活性不足。

  ACE支持的图像生成和编辑类型一览

  “我们的目标是为用户和开发者构建一个统一的多模态视觉生成工具,”通义实验室算法工程师毛超杰表示,“通过支持多种输入格式和处理更加多样的视觉生成与编辑任务,我们希望通过不断的技术创新为用户提供直观、高效的创作体验。”

  与传统图像编辑模型不同,ACE模型可同时支持文生图和图像编辑,用户输入口语化指令,可完成可控视觉编辑、元素编辑、区域重绘编辑、分层编辑等任务,仅用对话的方式就能实现修图功能,例如输入文字即可一键除水印、修改证件照背景等,极大地提高了编辑效率。

  ACE模型以其灵活的输入格式和多模态支持能力显着提升了视觉生成与编辑的效率。该模型通过引入长上下文条件单元(Long-context Condition Unit)系统,能够实现多轮对话,深入理解用户复杂的请求。LCU使ACE能够在生成过程中记住之前的上下文,从而在用户与模型进行多轮对话时,保持一致性和连贯性。通过利用先前生成的信息,ACE能够更好地理解用户意图,提高生成结果的质量和准确性。例如,在进行复杂的图像修改时,用户可以逐步指导模型,模型能够动态调整生成策略以满足要求。这一特性特别适用于需要逐步细化的任务,如图像重绘、风格转换等。

  上传一张照片即可对图中特定对象的风格化处理

  在文本指导生成、语义编辑、元素编辑和重新绘制等多个应用场景中,ACE在写真生成、去水印和图像风格转换等任务中表现优异,能够同时处理文本、图像和掩码的组合,从而更全面地满足设计师和创作者的需求。测试结果显示,ACE模型在MagicBrush的单轮和多轮编辑任务中取得了领先成绩。

  通义万相算法团队表示,未来将进一步提升ACE编辑模型的准确性,同时将逐步开放重绘、定制化生成、组合生成等能力,让用户更便捷地实现创意设计。

THE END

数码评测