术语表  / 生成对抗网络(GAN)
生成对抗网络(GAN)

生成对抗网络:简明指南

人工智能(AI)正如同寒武纪般经历着翻天覆地的变革。昨日的科幻,今日成为现实。特别是随着 ChatGPT 等工具的问世,人们对 AI 的热情持续升温。但 AI 进化的故事并非单调,我们正在同时在多个战线上推进 AI 软件的革新。

本篇,我们将揭秘 AI 领域的一颗璀璨明星:生成对抗网络(Generative Adversarial Network,GAN),这是一款适应各种任务需求的高效 AI 模型。

从分类到生成:AI 网络的两面

正如生物学家将动物化石分门别类,我们也为 AI 网络设立分类。在最顶层,AI 网络分为“分类型”和“生成型”。生成型神经网络能够开创新局,与之对立的分类型网络则是对现有事物进行归类。就像我们目前所做,将生成对抗网络(GAN)归入它应有的类别。

例如,若您想用文本标签创造全新的视觉图像,如同使用 Midjourney 那样,那么您需要的是生成型网络。而若您手头有大量数据待归类与标记,则应选用分类型模型。

生成与对抗的博弈

“生成对抗网络”这一名字透露了其生成性质的同时,也强调了“对抗”这一关键要素的重要性。GAN 的独特之处在于它将判别和生成两种模型的特点巧妙融合。首先,GAN 模型基于一组预分类的训练数据进行学习。随后,其生成部分尝试创造新实例,以符合模型的预期。而在第二个阶段,判别部分则要对比生成的内容和原训练集的内容,努力区分它们。

在 GAN 的世界里,“对抗”不仅是一个术语,更是一场智力较量。生成部分不断进化,力图制造出足以迷惑判别部分的高质量内容。GAN 的终极追求是培育出一个能创作出顶级内容的生成模型,而这一过程正是通过生成与判别的完美结合来实现的。

监督式学习与非监督式学习

在机器学习的世界里,除了分类与生成模型的区分,还有一种关键的分类:模型是属于“监督式”还是“非监督式”。这个分类并非总是那么明确。虽然监督式和非监督式的区别对于理解 AI 模型的工作方式很有帮助,但许多 AI 模型实际上采用了这两种方法的混合。监督式学习,如其名所示,通常在训练阶段需要人的监督和指导。这种模型的训练过程涉及多次的输入与期望输出的迭代。

而非监督式学习模型则走的是另一条路线,它更少或完全不依赖人类的直接干预。其目标是使模型通过对原始训练集的多轮优化训练,以达到在每一轮之后创造出更精准、更优质内容的能力。

生成对抗网络代表了何种 AI 模型?

生成对抗网络(GAN)是一种典型的非监督式人工智能模型。GAN 独特的对抗性训练模式是为了不断提升其生成内容的质量而设计。作为 GAN 的开发者,你的任务是为初始训练数据集提供高品质的分类,并拥有执行多轮迭代的计算能力。一旦这些基本资源到位,GAN 便可在极少的人机互动中高效运行。

生成对抗网络 vs. 卷积神经网络

对于初涉生成对抗网络(GAN)领域的开发者,他们常遇到的一个疑问是 GAN 与卷积神经网络(CNN)之间的联系。CNN,作为一种分类型模型,主要用于基于已有标记的内容对数据进行分类。在许多 GAN 应用中,CNN 被选为挑战训练初期生成内容的判别模型。CNN 在图像分类领域尤其常用,广泛应用于计算机图像识别系统。

同样,在 GAN 的架构中,CNN 也经常承担起生成阶段的角色。在这种情况下,使用 CNN 生成输出内容往往需要加入更多的逻辑处理,比如变分自编码器,而非仅仅依赖传统的 CNN。通过将这种策略与传统 CNN 结合使用,开发者能够在 GAN 训练的生成和对抗阶段都有效运用 CNN。

常见问题 FAQ

在我们对生成对抗网络(GAN)的原理和功能有了深入了解之后,下面我们来探讨一些关于 GAN 的常见疑问,以及你选择它作为项目工具的可能原因。

GAN 在哪些方面应用广泛?

GAN 的一大亮点在于它能创造出多种内容的逼真示例。配备了合适的训练数据后,你可以通过文本提示来生成以下几种类型的内容:

  • 音频内容(比如音乐)
  • 将黑白图像变成彩色
  • 把手绘草图转换成高度逼真的图像
  • 根据前序帧预测视频的后续帧
  • 制作高仿真度的深度伪造视频

为什么选择生成对抗网络?

我们已经探讨了生成对抗网络(GAN)的分类、运作方式和能力,但还有一个关键问题:为什么要选择使用 GAN?在你处理的问题缺乏大量训练数据时,GAN 可能是一个理想的选择。GAN 的一大特色是能够在有限的训练数据基础上生成更多数据,进而反馈到训练过程中。与需要在大量标注数据上进行训练的其他机器学习系统不同,使用 GAN 不受此限制。

同时,GAN 在处理和创造图像方面表现突出,无论是根据文本提示创造全新图像,还是更新已有图像,GAN 总能呈现出令人印象深刻的视觉效果。

为什么要避免使用生成对抗网络?

如果你正在考虑采用 GAN,也有一些可能的缺点需要考虑。首先,如果你希望以较低成本训练模型,GAN 可能不是最佳选择。由于需要经过多步训练周期和多轮训练,GAN 的训练成本较高。因此,在预算有限的情况下,选择 GAN 可能不太合适。

此外,GAN 有时会遇到所谓的模式崩溃问题,即输出内容只是训练数据的一个有限子集,而非你期望的多样化内容。

GAN 的适用性:适合场景中的巨大潜力

回到我们的进化比喻,生成对抗网络(GAN)并不像螃蟹或海龟那样,多年后仍然保持着同一角色。它们在不断地演化之中。研究人员还在探索 GAN 的可能性,以及如何最优化设计和训练它们。如果你正在考虑在你的工作流中引入机器学习,研究 GAN 绝对是一个明智的选择,尽管它们可能不是每项工作的理想工具。如果你发现 GAN 不适合,那就不应该强行将其应用于不合适的场景。但如果你的场景非常适合 GAN,尤其是在图像处理或创造方面,那么采用和训练 GAN 将极大地提升你的工作效率。

同时,还推荐一款高性价比的向量数据库——Zilliz