生成对抗网络GANs及其在文旅演艺行业的潜在应用
发布时间:2022年05月24日 来源:明通科技 浏览量:281

文中图片和部分资讯来自 © eduonix.com,packt editorial

Generative Adversarial Networks (GANs)是一种神经网络,可以生成新内容,而不是简单地分析或处理现有内容。我们一直在使用这些神经网络来创造风景、城市场景、建筑,甚至文艺复兴时期的绘画,这些数字图像从现有数据中生成、并呈现出来,其所带来的真实感或情境化程度令人难以置信。

 

      生成性对抗网络(GANs)由伊恩·古德费罗和他的团队于2014年开发。GAN基本上是一种生成性建模方法,它基于训练数据生成一组新的数据,新的数据有点类似训练数据。GAN有两个主要模块(两个神经网络),它们相互竞争,能够捕获、复制和分析数据集中的变化。

      这两个模型通常被称为生成器和鉴别器。

生成器捕获数据分布并生成新的数据样本。鉴别器估计数据样本来自训练数据而不是生成器的概率。想象一下,生成器是伪造者,鉴别器是警察。他们一开始都很糟糕。由于伪造者不断制造假币,警方不断试图识别假币或真币。在每次迭代之后,他们都会在各自的任务执行能力上有所提高。鉴别器(警察)正试图最大限度地提高识别假币的机会。当生成器(伪造者)试图最小化鉴别器正确的可能性时。这就是所谓的极小极大博弈。最终,伪造者制造出与真实货币一模一样的假币,由于假币看起来与真实货币一模一样,警方被迫猜测,只有50%的几率能正确。此时,GAN已经完成了训练,因为它现在可以生成与数据集中的图像完全相同的图像。

机器学习算法和神经网络很容易被欺骗,通过向数据中添加一些噪声来使系统错误分类。添加一定量的噪声后,图像错误分类的概率增加,实现神经网络可视化新模式(如样本序列数据)的变化。这种变化的结果便是生成了与原始结果类似的新结果。

下面介绍三种不同的GANs网络:

²  SRGAN – Super Resolution GANs

当给定低分辨率图像时,SRGAN可以生成照片级真实感的高分辨率图像。SRGAN结构由三个神经网络组成:一个非常深的生成器网络、一个鉴别器网络和一个预训练VGG-16网络。

²  CycleGAN

CycleGAN于2017年被提出,可执行图像翻译任务。一旦经过训练,你就可以将图像从一个场景转换到另一个场景。例如,通过马和斑马数据集训练后,如果你给它一个地面上有马的图像,CycleGAN可以将马转换成斑马。



²  InfoGAN

到目前为止,我们所考虑的GAN架构对生成的图像几乎没有控制。InfoGAN改变了这一点;它提供对生成的图像的各种属性的控制。InfoGAN使用信息论的概念,将噪声项转化为潜在代码,从而对输出进行可预测和系统控制。

InfoGAN中的生成器接受两个输入:潜在空间Z和潜在代码c,因此生成器的输出是GZc)。训练GAN,使其最大化潜在代码c和生成的图像GZc)之间的互信息。下图显示了InfoGAN的体系结构:

下面是其应用示例:

张嘴控制

头部转动控制

下面,我们来看看生成性对抗网络(GAN)的一些应用,这些应用某种程度上,有机会转换为文旅项目中的一些艺术创作、互动展览、沉浸式演出、互动游戏等方面的创作;

²  从可用数据生成新数据,风格转换——这意味着从与真实样本不相似的可用样本生成新样本。


²  使用可变形的GANs基于原有影像生成新的人体姿态;


图中左侧模特为原有影像,右侧为AI生成的新姿态

此亚博yabovip2024进入的一般方法是分别处理人物和背景。首先,从图像中提取前景对象或人形,并将其转换为所需姿势。然后通过合成相关纹理来填补背景中的空白。然后将它们组合在一起形成目标图像。一种特殊类型的骨骼图用于执行此类任务。

²  内容的艺术化创新;

²  文本到图像生成(对象GAN和对象驱动GAN


²  黑白图像上色


²  变幻草图为照片


²  真人照片的卡通化



²  照片的年龄变幻




下面是一些AI公共艺术及其应用案例:





------yabo2021vip.vom运用三维场景模拟,空间定位以及光学动捕,自动融合显示计算,特效合成编辑、特效逻辑编辑等技术,以专业文化娱乐行业为主要深耕方向,为客户提供动态投影映射、灯光以及视频内容追踪、视频内容互动、舞台创意集成在内的各类舞台创意视觉及音频亚博yabovip2024进入。

Baidu
sogou