模型,图片

【Ai时刻】Ai生图原理,那些一眼心动的美女是如何骗你的?


【Ai时刻】Ai生图原理,那些一眼心动的美女是如何骗你的?

  作为一名自诩“赛博写手”的无名小编,在完成每天的工作之余,就是在各类Ai绘画社群与某鸟上冲浪,最近一段时间ChatGPT的“Meme时刻”(就是常说的高光时刻)明显已经过去了,与之伴随的Ai整体热度也开始下滑,没有3月初期那种一刷信息流就全是Ai内容的“拥挤感”。

百度的Ai搜索指数

谷歌的Ai关键词全球搜索指数(这越南有点东西啊)

  其实这也是好事,任何独特新鲜技术的“诞生时刻”都是惹人关注的,但想要真正有所建树,还是需要时间的沉淀,哪怕是Ai技术的迭代是普通科技产品的指数级倍数。比如最近,谷歌的2023 IO开发者大会上,剑指微软系(ChatGPT/Bing/copliot)的Palm2模型发布,不仅拥有与GPT4相抗衡的语言能力,同时还打了一套Ai组合拳来维系谷歌科技龙头的地位。

图片源自互联网

  PaLM 2模型有四个版本,按照大小从小到大分别是Gecko、Otter、Bison和Unicorn。其中,轻量级的Gecko模型可以快速的在移动设备上运行,无需网络连接。PaLM 2在超过100种语言的语料库上进行训练,因此它在处理多语言任务上表现优异,能理解、生成和翻译更精细、多样化的文本。在一些基准评估中,PaLM 2部分成绩甚至超过了GPT-4。尽管PaLM 2的参数数量更少,但其性能却优于上一代PaLM模型。

谷歌bard对话模型进步比较明显,应该已经使用了PaLM 2模型

  可见在短短的几个月中,由算法、算力组织起来的Ai智慧树已经从一棵小树苗长成一棵硕果累累的巨树,至于这棵树会不会成为未来人类科技的“智慧之母”,还是要等待与辩证地看待。

Midjourney丨Ai绘画

  回归到标题上,最近在C站发现了一个运行在stable diffusion上的新模型,名字叫做BRA(Beautiful Realistic Asians) V5直译为美丽逼真的亚洲人,点击查看其效果照片,非常惊艳,不少用户展示出的作品都能达到照片级别,于是我就下载尝试玩玩。

图片源自互联网

  根据该模型的创作者介绍,该模型使用了大约 3 个月的训练失败以及训练合并的结果。该作者是一位在新加坡的华人,会说一点点中文与日文。

使用Discord和该模型制作者交流一下使用心得

  下面是我利用该模型配合一些特定的prompt产出的效果图片,部分图片由于原生精度与分辨率不足,我利用NVIDIA推荐的ON1 Ai放大软件进行了分辨率扩展,大家可以来看看这些Ai产出的图片是否很具有迷惑性。

stable diffusion丨BRA V5

  部分prompt:8k, best quality, masterpiece, ultra highres_1.2) Photo of Pretty Japanese woman in the style of paul rubens and rebecca guay

stable diffusion丨BRA V5

stable diffusion丨BRA V5

stable diffusion丨BRA V5

stable diffusion丨BRA V5

  部分prompt:A beautiful woman is setting up a stall in the street market,beautiful face,cinematic, Faint side light,fine details, 8k, 

stable diffusion丨BRA V5

stable diffusion丨BRA V5

stable diffusion丨BRA V5

  部分prompt:A lovely girl typing in front of the office computer, beautiful, lovely face, shot with Nikon Z7 full frame camera, 50mm lens,

stable diffusion丨BRA V5

stable diffusion丨BRA V5

  部分prompt:girl at the bus stop on a rainy day, no umbrella, getting wet, cute face, short haircinematic,Faint side light,fine details

stable diffusion丨BRA V5

stable diffusion丨BRA V5

  部分prompt:Cute girl at the beach, short hair, smile, sunset, with a bow, half body, film style,cinematic,Faint side light,fine details, 8k

stable diffusion丨BRA V5

stable diffusion丨BRA V5

  部分prompt:girl in supermarket, young girl, bangs, cute face, 50mm, F1.2, shot by Nikon camera, faded film style,Faint side light,

stable diffusion丨BRA V5

stable diffusion丨BRA V5

stable diffusion丨BRA V5

  部分prompt:Snowy girl with a scarf covering her nose, big eyes, eyelashes, black pupils, F1.2, shot by Nikon camera, faded film style

stable diffusion丨BRA V5

  部分prompt:Urban girl, city neon as background, city night view from high above, neon flashing, with love, short hair, wearing glasses

  是不是感到很惊艳,不仅仅是屏幕前的大家,就算训练过千张Ai图片的我,当看到光线、五官、表情与神态与照片几乎无差别的Ai生图时也是激动得不行,要知道就在20天前我们在做《NVIDIA显卡Ai算力大比拼,想画Ai女友该怎么选?》时画出的Ai女友也就仅仅长成这样:

  虽然也是非常美丽动人,但一眼就能觉得这是Ai出图,在脸部与皮肤的生成上,Ai非常倾向给出非常完美的“光线效果”,让皮肤的颜色、光感都处于绝佳状态,眼睛与嘴唇的细节处理也偏向于极致,眼妆与口红的色号也都是使用了“婚礼级别”,让图片中的女生虽然光彩动人,但是太过于“完美”,少了真实感。

  但在BRA V5中,在生成人像时,Ai模型甚至会刻意避开脸部的细节光线,让图像中的脸部处于阴暗面或者侧光面,同时在脸上加入了不少“瑕疵”,比如明显的血管纹、痘痘、雀斑等来增加人像的真实感。

图片中的女生甚至有抬头纹,肤色也相对更偏向真实,另外人脸的骨骼结构也更偏向真人

在该张中,女生的眼袋与雀斑也是比较明显,同时不会出现Ai经典的假笑

同样的,脸部会出现一些血管纹、印记等瑕疵来烘托真实感

脸部会有明显的高光与阴影区域,符合在真实光线与摄影环境中的出图

  这样的照片也成功骗到了我的朋友们,虽然他们已经给我打上了“我发的女生99%都是Ai画的”标签,但依然这几组成功唬到了不少人。

  看来,在可预见的未来,喜欢好看妹妹的男生们不仅要防过度美颜大法还要警惕Ai美女的以假乱真,这也从侧面反映了,当前的Ai生图技术的强大,那么目前流行的stable diffusion和midjourney的Ai绘图软件到底是怎么理解文字,然后生成这样的图片的呢?

stable diffusion丨BRA V5

  接下来就来为大家揭开Ai画图的奥秘,但其中会涉及大量的技术类名词,为了更方便大家的理解,我会用大量的比喻来代替。

  教学时刻

  使用过stable diffusion和midjourney的小伙伴都应该清楚,Ai绘图都一个从“模糊到清晰”的过程,不论是基于本地的stable diffusion还是基于线上高性能服务器的midjourney。

  这模糊到清晰的过程就是当前Ai绘画的主流手段-Diffusion model(扩散模型),简单点说,Ai绘画会先把图片进行“降维”然后训练,这个降维的过程很像是大家平时使用的榨汁机,将一个苹果放在榨汁机里去打碎了,变成苹果泥,然后吃一口,记住苹果泥的味道,从而知道这个味道的果泥就是苹果。

Midjourney丨Ai绘画

  而Ai则是将图片进行“嚼碎”(加噪点)来变成一组组的马赛克图片,这样的用意是在有限的算力下尽可能地多学习几组图片,多生成几组图片。因为马赛克的数据值是精确图片的1/100甚至1/1000.

  那现在知道了Ai是如何快速学习图片的,那如何生成呢?还是拿苹果泥举例,在我们吃过了许多的果泥,比如苹果的、西瓜的、哈密瓜的、香蕉的,我们即使蒙上眼睛,只需要通过一点点的果泥就能分辨这个水果,然后回答出来。

Midjourney丨Ai绘画

  Ai也是重复类似的过程,通过大量的图片加噪点得到的马赛克图片,Ai也总结出了这个马赛克是猫、那个马赛克是狗之类的规则(具体逻辑比较深,不做赘述)。那就可以通过马赛克来反向还原图像,这一步就叫做Reverse diffusion 反向扩散。

  那么,Ai是如何理解我们的语言,并根据我们的想法画出“我们想要的小姐姐”的呢?过程中需要将文本进行“分词器Tokenizer”然后进行“clip”再进行“嵌入Embedding”,就可以让机器学习、认识到了!谢谢大家!

  好了,不闹了。这些拗口且复杂的概念应该留给更加专业的小伙伴去学习,我们只需要知道,Ai(不管是绘图的,还是GPT类型的)都是通过将文字“降维”的方式来理解并学习,有点像是上述提到的“苹果泥”概念,Ai会将用户输入的文本拆分为更小的单元(词或字符),然后将分词后的文本转换成数学向量,这样模型才能更好地理解和处理。

Ai理解就是将文本碎片化、数字化丨Midjourney丨Ai绘画

  然后就要用到转换器模型(Transformer Model):这是一个能够处理序列数据(如文本)的深度学习模型。它通过捕捉文本中的依赖关系和上下文信息,为生成图像提供丰富的信息。类似于专业的语言学家来帮计算机处理文本的关系,比如用户输出“可爱的猫”,不至于出现“猫的爱可”这样的计算机识别错误。

转换器模型就是将成堆的拼图碎片转换成一张张完整的拼图丨Midjourney丨Ai绘画

  理解完文本,就到了画画的过程了,就要用到噪声画画这个概念,如同吃水果泥来辨别水果,噪声预测器(Noise Predictor):这一步利用转换器模型提供的信息,逐渐生成图像。通过迭代过程,噪声预测器会从粗糙的图像开始,逐步细化细节。这就是为啥我们看到的Ai画图都是从模糊到清晰的过程。也像是一个画家根据一段描述开始创作,先绘制大致轮廓,然后不断添加细节,直至完成一幅画作。

也可以理解为慢慢地去雕刻一块巨石丨Midjourney丨Ai绘画

  接下来,我利用stable diffusion给大家展示一个小姐姐的生成过程,

  给Ai输入小姐姐的关键词(prompt)

  输入一定的特定咒语,比如什么高级渲染,8K渲染,HDR渲染之类的,还有一定的反面词,比如不要奇怪的手部,不要畸形之类的。

  开始绘图,得到结果

  如果在这过程中,我们中断一下模型的进度就可以得到类似于带有噪点的图片

  从绘图过程中,我们可以看到绘图一开始的过程中,Ai就是先生成一个比较模糊的人物形象,一个大致的轮廓,然后逐渐地去填充,在绘图进度46%的时候就可以初见人物的雏形,后续都是把人物的细节进行纠正修改。

stable diffusion丨BRA V5

  这就是可以以假乱真的小姐姐的诞生过程了,感兴趣的小伙伴可以尝试用SD来画自己喜欢的小姐姐形象,但是请注意的是,目前国内的部分内容平台已经开始针对Ai生图进行了扫描识别并下架部分涉嫌违规的内容。目前Ai领域的规则还是处于空白阶段,所以针对版权保护等行为还没有彻底上线。

stable diffusion丨BRA V5

  希望各位在利用Ai工具的同时也要敬畏技术带来的冲击,我很喜欢老黄在NVIDIA 2023大会上提到的“我们处于Ai的iPhone时刻”,正如iPhone彻底颠覆了手机市场一般,我们也需要辩证地看待Ai将会带来的改变。

技术没有黑白之分,是一把达摩克利斯之剑。