AI作画离线版V5.1，ControlNet、清华类ChatGPT、抠图、补帧、数字人，一堆功能来啦！

AI作画离线版V5.1，ControlNet、清华类ChatGPT、抠图、补帧、数字人，一堆功能来啦！

2024-12-03 07:16 浏览:146

三个月没更新了，V5.1带来了非常多的功能，主要是ControlNet 1.1作画、腾讯T2I-Adapter作画、清华大学类chatgpt项目、抠图、视频补帧、数字人、界面功能整合与优化等。

V5.1版本：2023-5-18（V5.1版本开始不支持win7，仅支持win10、win11）

1、支持ControlNet 1.1作画、腾讯T2I-Adapter作画两种作画功能；

2、支持LORA（包括Lycoris类的lora模型）、众多VAE类模型加载；

3、所有作画功能支持参考图选择视频参考，自动逐帧参考，自动生成视频；

4、音视频转文字的最大模型后端改为faster_whisper，速度提升4倍，显存占用3-5G左右（int8和fp16模式），且不会出现繁体中文了；

5、加入清华大学的类chatgpt项目chatglm，6G显存就能用；

6、加入rembg抠图和SAM抠图（facebook的seg anything）功能；

7、图片说话加入音频驱动功能（包括维持原图，不仅仅是人脸视频了），图片说话参数设置里设置即可；

8、支持视频补帧，最高16倍补帧；

9、图片高清放大支持半精度模型，显存占用减小一倍，且支持高清放大视频了；

10、图片转3D支持选择几个模式输出以及视频码率设置；

11、主界面众多功能菜单化、作画参数设置界面分离化，参数分类不拥挤；

12、软件报错后不需要重开软件了，按钮仍可以点击。

01 软件概览

软件名字叫做：AI作画离线版V5.1，基于GitHub上的开源项目Disco Diffusion与Stable Diffusion以及众多开源项目。如下，软件主界面，还是以操作简单为主：

02 软件安装

软件非常大，因为有很多离线模型（模型按照功能划分，可按需下载），下载完成后，按照网盘里的pdf教程即可进行体验。

软件界面如下所示：

03 软件功能

介绍功能一：DD(Disco Diffusion)作画

1、描述词设定：如下默认的描述，每段（回车换行算一段）都是同一描述的不同权重关键词。

队列模式下的描述词设定：当如下勾选了队列模式后，通过固定的句式，可以生成大量的配置文件，也就可以实现生成多套参数的图。

比如我的文字描述这样描述：a beautiful girl by {400|1|艺术家}，当点击保存设置后就会生成400个艺术家的不同配置文件。注意这个格式{400|1|艺术家}中的{}、|这些不能缺少，完全按照固定格式来，400代表生成400个配置文件，1代表by一个艺术家名字（如果设置成2就代表by两个艺术家名字混搭），艺术家代表的是软件目录下【描述风格库】文件夹下的艺术家.csv文件，而艺术家.csv文件如下所示，两列数据：

软件支持各位自建这种语料库，大家可以复制csv建立副本，然后在副本里修改，注意也是按照两列格式来，第一列是描述，第二列是解释。比如下面我建的颜色.csv文件，简单写了一下，也是一定严格两列来哈，且都放在软件目录下的【描述风格库】文件夹。

2、帮助相关：对于大多数参数，都加入了帮助按钮，鼠标划到对应帮助图标，驻留即可显示参数含义，如下所示，当然大多数都是翻译的官方文档，加入自己的一点注解。

3、参考图：参考图也人性化了，直接点击按钮选择图片即可，注意看参数旁边的问号，一般加入参考图时，skip_steps这个参数需要设置大一些。

4、AI作画模型选择：参数设置里提供两种绘图Diffusion模型引擎选择，原版DD、像素版DD以及其他自定义的PT格式模型，如下图设置：

如下演示的是国画模型：

5、AI图片描述解析：如下按钮点击，选择图片，稍等片刻即可显示出描述，当然这个描述有所出入，但当作描述来用画出的图也确实不错。

下面演示几张图，解析出来的描述：a couple of people riding bikes down a road, a matte painting by Makoto Shinkai, featured on pixiv, rayonism, official art, anamorphic lens flare, matte painting

a group of iron man standing next to each other in the ocean, a comic book panel by Paul Pelletier, featured on deviantart, antipodeans, marvel comics, reimagined by industrial light and magic, imax

a painting of a landscape with mountains and trees, a detailed matte painting by Katsukawa Shunsen, pixiv, shin hanga, ukiyo-e, matte painting, detailed painting

功能二：SD(Stable Diffusion)作画

SD作画功能和DD功能基本一致，同样支持队列模式、参考图等功能，SD作画速度更快，且画得更加具象，下面主要介绍SD的参数设置。同样SD也是具有文字描述和参考图功能，还有一些其他参数，大家可以鼠标悬停到参数旁边的问号就会有说明。

1、描述词设定：描述词句式基本和DD一样，但SD作画多了个负描述，负描述默认可以不写，负描述如果写，就代表不想让绘画结果出现的元素。

支持写个开头，然后如下点击AI生成描述进行续写描述，目前有两种自动写描述引擎了：

2、绘图参数：图片尺寸和DD一样，需要64的倍数，当然随便填写尺寸也行，软件会自动转换；绘图步数和DD类似，不过SD步数20就够了；绘制图片轮数代表每次画几张图；描述相关度默认数值就可以，当然可以尝试10以上数值；随机种子默认0，代表每次种子随机，设置大于零的固定值，如果其他参数一样，则SD出图完全一样，这点和DD不一样哈。

3、显存占用模式选择：软件提供不同显存占用模式：超级低、非常低、高、极高，以及带着xformers加速模块模式，加速模块效果拔群，速度很快，显存占用也低了很多。

4、16代黑图问题：针对GTX 16系列，诸如1660等显卡，SD作画会黑图，需要勾选如下选项，可以正常出画。

5、参考图：和DD一样，SD也支持参考图，不过参数比较简单，基本上就是导入原图，修改描述，设置图片差异度参数即可，注意差异度参数范围0-1，1代表与参考图差异最大哈。另外，自适应尺寸比较人性化，比如参考图尺寸宽高为1024x512，绘图参数尺寸设置512×512,默认无，代表不自适应，最终出的图尺寸为512×512，固定宽代表，以绘图参数尺寸设置的宽512为准，参考图宽高比2比1，高自动修改为256，最终输出512x256的图。

如下，试试SD参考图，实现真人二次元效果或者其他的一些效果：

6、动画：SD动画选择2D，即可开启动画模式，动画也可以设置参考图，支持动画变化角度、缩放大小、xyz轴移位等。

文字描述需要如下格式，每一次换行都是一个过渡描述，每个过渡描述末尾三个冒号后面跟着的数字，代表动画帧数。

7、SD、LORA、VAE模型选择：支持选择第三方ckpt、safetensors格式的SD模型、VAE模型以及LORA模型（还支持Lycoris类的LORA模型），如下所示：

8、局部修改：如下点击局部修改按钮，可以实现涂鸦部分区域实现局部修改功能，此功能效果也比较有限，换脸什么的还可以，如下演示：

9、模型融合：点击SD模型融合按钮，如下支持不同ckpt或者safetensors格式的SD模型按照比例融合，融合后的模型兼具两个模型的特点。

10、DeepDanbooru二次元TAG解析：如下点击按钮，支持二次元图片的TAG解析，诸如NovelAI等模型比较有需求：

功能三：CN作画

CN就是目前大名鼎鼎的ControlNet，目前软件同步到CN 1.1版本，总体使用方式和SD差别不大。CN的精髓在于下图，不同的这些模型：

这些模型的作用就是针对不同的参考图进行创作，诸如Lineart模型就是针对线稿参考图，然后实现线稿上色或者二次创作的目的，如下演示，选择Lineart_Anime这个二次元线稿的CN模型配上二次元SD模型和描述：

如下选择openpose这个人体姿势的CN模型，左图为原图，中间为识别原图的骨骼图，右图为生成的图。

如下SEG语义分割的CN模型效果：

如下MLSD这种识别建筑线稿的CN模型效果：

如下为超分辨率的Tile的CN模型，真的是模糊图重绘神器：

功能四：T2I作画

T2I作画和ControlNet实现的结果基本相似，套路也是一样，如下也是提供众多模型：

在这里就不做重复演示了，如下官方的介绍图：

功能五：图片/视频AI高清放大

设置不同的放大模型和图片放大倍数，高清放大图片输出目录为软件目录images_outAI_ultra_HD，当输入的图片尺寸很大时，容易超显存，这时我们修改拼图大小这个参数即可，比如设置拼图大小512时，6G显存选择realesrgan_x4plus模型对1920*1080图片进行4倍放大测试不超显存。支持2-10倍放大。

AI高清放大是一个独立功能，软件主界面图片处理菜单选择图片/视频高清放大选项，选择图片或者视频（支持批量），即可高清放大图片或者视频。如下，小图经过高清放大的对比效果，二次元和三次元都能胜任。

功能六：老照片修复

软件主界面图片处理菜单选择老照片修复选项，选择图片（支持批量），即可高清修复老照片，仅对人像进行高清修复。如下，经过高清人脸修复对比效果动图演示：

功能七：图片/视频上色

软件主界面图片处理菜单选择图片/视频上色，选择黑白视频或者图片即可实现上色，支持批量。如下参数设置里，可以选择不同上色模型，二次元模型专注二次元线稿上色：

如下动图演示，上色前后的效果：

功能八：图片说话

图片说话功能，可以实现导入的图转换成说话人视频的形式，支持音频和视频驱动，默认音频驱动说话。

软件主界面点击图片处理菜单选择图片说话，选择图片（支持批量），转换图片成如下的视频形式。

功能九：AI图片转3D

AI图片转3D输出视频目录：软件目录video；AI图片转3D也是一个独立免费功能，如下参数设置可以设置生成视频时长和摄像头位置（位置一般不改）：

软件主界面图片处理菜单选择图片转3D，选择图片（支持批量），转换图片成视频形式，这个转换速度较慢，5到30分钟一张图。基本上就是原作项目介绍的这种效果，一张精图转换成3D的效果，不过相比原作我做了改进，支持原图尺寸大小的视频。

功能十：抠图

软件主界面图片处理菜单选择抠图，选择图片（支持批量），即可进行背景和人物分割，如下演示：

功能十一：二次元生成

软件主界面图片处理菜单选择二次元生成，即可绘制上百张二次元图片：

如下可在参数设置里，设置各种参数以生成不同类型的二次元小姐姐：

功能十二：三次元生成

软件主界面图片处理菜单选择三次元生成，即可绘制上百张三次元图片：

如下可在参数设置里，设置各种参数以生成不同类型的三次元图片：

功能十三：AI写小说

软件主界面小说聊天菜单选择AI写小说|聊天界面，如下点击AI写小说按钮，设置开头，即可续写不同轮数的文字：

点击训练小说，如下可以选择自己的小说语料txt，训练自己的模型：

还支持清华大学Chatglm，注意这个至少需要6G显存，且加载模型较慢，请耐心等待，可以实现类似Chatgpt的形式：

功能十四：伴奏人声分离

软件主界面音视频处理选择伴奏人声分离，选择歌曲（支持批量），即可自动分离人声、伴奏、鼓点和低音，效果很厉害。若显存4G及以下，可以如下参数设置勾选低显存占用模式即可：

功能十五：音视频转文字

软件主界面音视频处理选择音视频转文字，选择音频或者视频，即可进行语音识别，输出字幕和文字版txt文件。音视频转文字功能，支持100多个国家语言，若选择汉语，则不过什么语言的音视频，最终都会自动翻译成中文字幕和txt文件，方便快捷，不过翻译效果有限，最好还是选择原视频语言进行识别。5.1版本大模型(int8)模式仅需要4-5G显存，速度快4倍，效果也很好。

如下，选取的日文视频演讲识别字幕效果，红框为软件识别自动翻译的字幕：

功能十六：视频补帧

软件支持视频2-16倍补帧，这个效果也是很不错的，如下参数设置进行设置参数即可：

点击音视频处理菜单的视频补帧选项，选择要补帧的视频即可，补帧效果就是如下这种效果，原理是AI计算相邻两帧，然后脑补出中间大量帧：

04 显卡要求

需要至少2GB显存，且必须是英伟达显卡，AMD、intel等不支持。

05 小结

这个项目确实很有意思，需要英伟达2G及以上显存，AMD等其他显卡不支持，感兴趣的可以体验一下5.1版本了，更详细的作图参数、教程多刷刷B站相关视频即可。

06 本期内容获取

方式一：百度网盘https://pan.baidu.com/s/1B0g4MPFe_drP_hRjgEnKGg 提取码：95kh

方式二：天翼网盘https://cloud.189.cn/t/ZZ7vuyZrMvmm (访问码:7dn8)

以上就是本篇文章【AI作画离线版V5.1，ControlNet、清华类ChatGPT、抠图、补帧、数字人，一堆功能来啦！】的全部内容了，欢迎阅览！文章地址：http://sicmodule.glev.cn/quote/10694.html
行业资讯企业新闻行情企业黄页同类资讯网站地图返回首页歌乐夫资讯移动站 http://sicmodule.glev.cn/mobile/ , 查看更多