利用AI神器——StableSR 让普通图片瞬间变身精美画作

StableSR,这是个啥玩意儿?听着高大上,其实就是一个用AI技术让普通图片变得清晰细腻的神器。

以前我们想把糊里糊涂的小图片放大,除了被PIXEL(像素)噎死,基本没啥好下场。要不就是花大价钱找PS高手办事,不然就只能哭着接受现实,放弃无奈。

但现在有了StableSR这根救命稻草,一切烦恼不再!

1. 它利用了之前训练好的Stable Diffusion模型,所以不需要重新训练,很高效!

2. 它通过时间感知编码器这一绝妙设计,可以根据不同阶段需求调整图片质量,既保证清晰,又不失真!

3. 可控特征装配模块让用户可随意调节图片质量与保真度,想画多细致就多细致,非常自由!

4. 且不受图片大小限制,无论大图小图一锅端,省心又省力!

5. 无论合成图或真人图测试下来,效果都比其他方法好太多!

有了StableSR这款黑科技,想画精美画作的梦想不再遥远。不管你是小白还是大神,都可以用它轻松画出让自己满意的画作!

StableSR的框架包括以下几个要点:

首先微调连接到固定的预训练Stable Diffusion模型上的时间感知编码器。特征与可训练的空间特征变换(SFT)层相结合。这种简单而有效的设计能够利用丰富的扩散先验进行图像超分辨率。然后,扩散模型固定，引入一个可控特征包装(CFW)模块,以残差的方式获得调谐特征Fm,给定来自LR特征的额外信息Fe和来自固定解码器的特征Fd。通过可调节的系数w,CFW可以在质量和保真度之间进行权衡。

1. 时间感知编码器(Time-aware Encoder)

– 微调连接在固定的预训练Stable Diffusion模型上的轻量级编码器

– 通过时间嵌入层生成与时间相关的特征,以对不同迭代中的特征进行自适应调制

– 提取LR图像的多尺度特征,经过SFT层与Stable Diffusion的特征结合

– 只训练编码器和SFT层的参数,固定Stable Diffusion模型的参数

2. 固定的Stable Diffusion模型(Fixed Stable Diffusion)

– 预训练好的文本到图像生成模型,提供强大的生成先验

– 参数固定,不修改原模型,以保留其包含的先验知识

3. 可控特征装配模块(Controllable Feature Wrapping, CFW)

– 借鉴CodeFormer,从编码器中获取LR图像特征,与解码器特征残差结合

– 通过调节系数w平衡质量和保真度

4. 渐进聚合采样策略(Progressive Aggregation Sampling)

– 将图像分割为重叠补丁,每步聚合处理,避免边界不一致

– 可处理任意大小的图像

以上模块协同工作,使StableSR可以有效利用Stable Diffusion的先验进行超分辨率,并处理关键问题如保真度、任意分辨率等。

常见问题解答:

问题1:StableSR适合什么用户群体?

答:StableSR可用于艺术创作,无论是小白还是大神都可以用它提高图片质量,让创作更出彩。

问题2:StableSR的使用门槛高吗?

答:不高,只需要简单的设定就可以使用,操作非常容易上手。

问题3:StableSR的效果好在哪里?

答:它可以自动提高图片质量,使图像更清晰细腻;又可以保证不失真原图片的细节,兼顾质量与保真度。

综上所述,StableSR是一个非常易用且高效的AI图像增强工具,让艺术创作变得简单,值得推荐使用!

现有模型也可以加载到Stable Diffusion中体验，常规操作，我们打开SD，然后选择扩展从网址安装https://github.com/pkuliyi2015/sd-webui-stablesr.git

需要注意的是，StableSR必须配合Stable Diffusion V2.1 768模型来使用，可以从stabilityai/stable-diffusion-2-1-base · Hugging Face来下载，然后StableSR官方模型可以从webui_768v_139.ckpt · Iceclear/StableSR at main (huggingface.co)来进行下载，无法科学上网的同学，可以关注我后台回复StableSR获取下载链接

具体使用步骤：

在 WebUI 的顶部，选择你下载的 v2-1_512-ema-pruned 模型。
切换到 img2img 标签。在页面底部找到 “Scripts” 下拉列表。
- 选择 StableSR 脚本。
- 点击刷新按钮，选择你已下载的 StableSR 检查点。
- 选择一个放大因子。
上传你的图像并开始生成（无需提示也能工作）。
推荐使用 Euler a 采样器，CFG值=7，步数 >= 20。
- 尽管StableSR不需要提示词也能工作，我们发现负面提示词能显著增强细节。比如使用3d, cartoon, anime, sketches, (worst quality:2), (low quality:2)
- 点击查看有/没有prompt的对比
如果生成图像尺寸 > 512，我们推荐使用 Tiled Diffusion & VAE，否则，图像质量可能不理想，VRAM 使用量也会很大。
这里是官方推荐的 Tiled Diffusion 设置。
- 方法 = Mixture of Diffusers
- 隐空间Tile大小 = 64，隐空间Tile重叠 = 32
- Tile批大小尽可能大，直到差一点点就炸显存为止。
- Upscaler必须选择None。
下图是24GB显存的推荐设置。
- 对于4GB的设备，只需将Tiled Diffusion Latent tile批处理大小改为1，Tiled VAE编码器Tile大小改为1024，解码器Tile大小改为128。
- SDP注意力优化可能会导致OOM（内存不足），因此推荐使用xformers。
- 除非你有深入的理解，否则你不要改变Tiled Diffusion & Tiled VAE中的其他设置。这些参数对于StableSR基本上是最优解

具体参数配置如下：

对比下试验结果

放大两倍后，效果还是比较明显，清晰度有了明显提升，细节也更丰富

想尝试的小伙伴，点个关注吧

原文链接：https://blog.csdn.net/wutao22/article/details/131820968

你可能也喜欢