使用介绍
我们发布了Arti Wa ifu Diffusion 模型,旨在生成美观且忠实还原的动漫风格插图。
AWA Diffusion 是 Stable Diffusion XL 模型的迭代,掌握了6000 多种艺术风格和 4000 多个动漫角色,通过触发词生成图像。
作为专门的动漫图像生成模型,它擅长生成高质量的动漫图像,尤其是生成具有高度辨识度的风格和人物的图像,同时保持一贯的高质量审美表达。
型号详情
AWA Diffusion 模型是在 Stable Diffusion XL 的基础上进行微调的,精选了150 万张高质量动漫图像数据集,涵盖截至 2024 年 4 月 15 日的各种流行和小众动漫概念。AWA Diffusion 采用了我们最先进的训练策略,使用户能够轻松诱导模型生成特定字符或风格的图像,同时保持高图像质量和审美表达。
使用指南
本指南将(i)介绍模型的推荐使用方法和提示写作策略,旨在为生成提供建议;(ii)作为模型使用的参考文档,详细介绍触发词、质量标签、评级标签、风格标签和角色标签。
基本用法
- CFG 规模:5-11
- 分辨率:面积(= 宽度 x 高度)约为 1024×1024。不低于 256×256,并且长度和宽度均为 32 的倍数的分辨率。
- 采样方法:Euler A(50+步)或DPM++ 2M Karras(~35步)
由于特殊的训练方法,AWA的最佳推理步数高于常规值。随着推理步骤的增加,生成图像的质量可以不断提高……
❓问:为什么不使用标准 SDXL 分辨率?
💡答案:因为训练中使用的分桶算法并不遵循固定的一组桶。尽管这不符合位置编码,但我们没有观察到任何不利影响。
提示策略
所有文本到图像的扩散模型都对提示具有极高的敏感度,AWA Diffusion 也不例外。即使提示中存在拼写错误,或者甚至用下划线替换空格,也会影响生成的结果。 AWA Diffusion 鼓励用户在以逗号 + 空格 ( )分隔的标签中编写提示。尽管该模型还支持自然语言描述作为提示,或两者的混合,但逐个标签的格式更稳定且用户友好。,
在描述特定的ACG概念时,例如角色、风格或场景,我们建议用户从Danbooru标签中选择标签,并将Danbooru标签中的下划线替换为空格,以确保模型准确理解您的需求。例如,bishop_(chess)
应写为bishop (chess)
, 在像 AUTOMATIC1111 WebUI 这样使用括号对提示进行加权的推理工具中,标签内的所有括号都应被转义,即bishop \(chess\)
。
第二页包含提示词使用指南
作品参照
Stable Diffusion提示词
healslime, solo,looking at viewer,cowboy_shot,beautiful color,detailed,amazing quality,ruins
Negative prompt: lowres,ugly,abstract,deformed,handfused,fingersextra,limbsextra,armsmissing,armextra,legsmissing,legextra,digitsfewer,digits,signature,logo,artist name
Steps: 30, Size: 768x1280, Seed: 10000, Model: artiwaifuDiffusion_v10, Version: v1.9.0, Sampler: DPM++ 2M, CFG scale: 7, Model hash: 73ed24bde3, Schedule type: Karras
Stable Diffusion提示词
by mont blanc, by yoneyama mai, 1 kromer \(project moon\), 1girl, smile, solo, e.g.o. \(project moon\), swing a sledgehammer, wears knight armor, dull, fighting stance, series, blood in eyes, flame, detailed, beautiful color, aesthetic, amazing quality, lighting and shadow, perspective
Steps: 50, Size: 832x1216, Seed: 3921354718, Model: aidxl-al_ep45_step9000, Version: 1.6.0, Sampler: Euler a, CFG scale: 7, Model hash: 73ed24bde3, Denoising strength: 0.25, SD upscale overlap: 256, SD upscale upscaler: R-ESRGAN 4x+ Anime6B