In this post

简介

AIGC图像生成中对文本的控制一直是一个难点。

An image to describe post

2023年4月28日,StabilityAI发布了DeepFloyd IF模型,实现了精准的英文字符生成。

https://stability.ai/news/deepfloyd-if-text-to-image-model

https://huggingface.co/DeepFloyd/IF-I-XL-v1.0

An image to describe post

2023年8月,由Google Brain研究人员创立的ideogram,并完成了1650万美元的种子轮融资,到10月份,估值高达5亿美元

https://ideogram.ai/

上述方法大多以英文为主,无法解决中文这种字形繁杂、字符数以万计的文字生成。

2023年12月,阿里提出了一种新的文字生成方法AnyText,通过创新性的算法设计,可以支持中文、英语、日语、韩语等多语言的文字生成,还支持对输入图片中的文字内容进行编辑。该模型所涉及的文字生成技术为电商海报、Logo设计、创意涂鸦、表情包等新型AIGC应用提供了可能性。

An image to describe post

模型介绍

AnyText主要基于扩散(Diffusion)模型,包含两个核心模块:隐空间辅助模块(Auxiliary Latent Module)和文本嵌入模块(Text Embedding Module)。其中,隐空间辅助模块对三类辅助信息(字形、文字位置和掩码图像)进行编码并构建隐空间特征图像,用来辅助视觉文字的生成;文本嵌入模块则将描述词中的语义部分与待生成文本的字形部分解耦,使用图像编码模块单独提取字形信息后再与语义信息做融合,既有助于文字的书写精度,也有利于提升文字与背景的一致性。训练阶段,除了使用扩散模型常用的噪声预测损失,我们还增加了文本感知损失,在图像空间对每个生成文本区域进行像素级的监督,以进一步提升文字书写精度。

An image to describe post

训练数据介绍

本模型的训练数据集为AnyWord-3M(即将开源),主要来源于互联网开源数据集,包括LAION-400M, Noah-Wukong以及部分OCR数据集,按照一定规则从中筛选出包含文字的图片,并使用OCR模型和BLIP-2模型进行全自动打标,总计得到300万高质量的图文对,涵盖自然图像、电影海报、书籍封面等各类场景。

模型评测指标

我们使用全句准确率(Sen. ACC)和归一化编辑距离(NED)评价生成文字的准确度,使用FID指标评价图像的生成质量。与现有方法相比,AnyText在中英文的文字生成方面均具备显著优势,达到SOTA水平。

注:SOTA,state-of-the-art result,指的是在该项研究任务中,目前最好的模型的结果/性能/表现。

我的测评

  • 运行说明

提示词:一个帅气的男人站在联合国大会会议,会议厅的电视上面写着"云界牛逼”

结果评价:画面质量较低,SD 1.5的水平,文字的融合效果非常好,能基本融入文本构建的环境中

An image to describe post

提示词:一栋建筑门口的金属招牌,上面写着"云界牛逼”

结果评价:文字的金属质感非常切合提示词的描述

An image to describe post

项目进展

[2024.01.04] - FP16 inference is available, 3x faster! Now the demo can be deployed on GPU with >8GB memory. Enjoy!

[2024.01.04] - HuggingFace Online demo is available here

[2023.12.28] - ModelScope Online demo is available here !

[2023.12.27] - 🧨We released the latest checkpoint(v1.1) and inference code, check on modelscope in Chinese.

[2023.12.05] - The paper is available at here .

项目地址

  1. Github代码

    https://github.com/tyxsspa/AnyText

  2. 在线DEMO-Huggingface

    AnyText - a Hugging Face Space by modelscope

  3. 在线DEMO-魔搭社区

    AnyText图文融合

  4. Anytext-Comfyui插件(暂未发布)

    https://github.com/ZHO-ZHO-ZHO/ComfyUI-AnyText