GAN（一）先验知识-程序员宅基地

生成器（Generator）：生成器的目标是创建尽可能真实的数据，以“欺骗”鉴别器。它接收一个随机的噪声信号作为输入，并通过这个噪声生成新的数据样本。
鉴别器（Discriminator）：鉴别器的任务是区分生成器产生的假数据和真实数据。基本上，鉴别器就像一个警察，试图识别哪些数据是“假”的，哪些是“真”的。

训练过程

在训练过程中，生成器和鉴别器会进行一种“博弈”。生成器尝试生成越来越逼真的数据来欺骗鉴别器，而鉴别器则尝试变得更擅长识别假数据。这个过程类似于两个玩家在一个游戏中相互竞争：

当鉴别器正确区分真假数据时，它会被奖励。

当生成器成功欺骗鉴别器时，生成器会得到强化。

这种对抗性训练最终导致生成器学会生成非常逼真的数据样本。

GAN的网络结构示意图

背景介绍

在统计学和概率论中，有这样一个观念，认为许多现象和数据都可以通过特定的概率分布来描述和预测。通过这些分布模型来帮助我们理解和预测自然和社会现象的行为。有些现象可能由复杂的因素互相作用，使得它们的分布难以用传统的概率分布来描述。（在图像处理中这点尤为明显，比如人脸的组成，眼睛、鼻子、嘴巴、耳朵，都有各自的分布位置；比如树，树干，树枝，树叶）。插一句题外话，这也是GAN如此强的生成能力却没有应用在文本生成方面的原因之一。

在此之前，许多关于深度学习生成模型的研究都专注于构造一个能够明确描述概率分布的模型。这类模型通过尝试最大化对数似然度来训练，这是一种衡量模型性能的方式。在这些模型中，深度玻尔兹曼机是其中最为成功的一个例子。不过，这类模型的处理过程很复杂，需要进行多次近似计算，使得它们的使用变得有些困难。

因此，研究者们开始探索新型的生成模型，这些模型虽然不直接计算概率分布的可能性，但可以直接生成数据样本。GAN就是这样的一个新模型，它允许使用更直接的方法来进行训练——即所谓的反向传播，这种方法比之前的模型需要的复杂近似计算要简单得多。最新的研究进一步发展了这一概念，通过去除之前模型中必须的马尔可夫链，使模型更为简洁高效。这意味着，我们现在有了一种更加强大且易于使用的工具来创造新的数据样本。

好处：计算更加的方便

坏处：我们不知道分布的样子

传统生成模型

传统生成模型如变分自编码器（VAEs）、马尔可夫链蒙特卡洛（MCMC）方法或简单的密度估计技术，通常侧重于直接从训练数据中学习概率分布。它们通过建模概率分布的参数或直接采样来生成新的数据点。

生成对抗网络

GANs通过让两个网络——生成器和判别器相互竞争来生成数据。生成器生成尽可能逼真的数据，而判别器则试图区分真实数据和生成器生成的数据。

比较和应用

如果任务侧重于生成高质量的图像或其他复杂数据，并且可以接受较高的训练不确定性和资源消耗，那么GAN可能是更好的选择。
如果任务需要理论上的稳定性、样本多样性或对生成过程的详细理解，传统的生成模型可能更加适合。

生成器（Generator）

生成器通常是一个深度神经网络，其结构可以是多层感知机（MLP）、卷积神经网络（CNN）或递归神经网络（RNN），具体取决于处理的数据类型和任务。在图像生成任务中，卷积神经网络尤为常见，因为它们在处理图像数据时能够有效捕捉空间层级的特征。

为什么生成器是这样的结构呢？

我们的输入是一个随机的噪音，我们生成器的输出应该符合目标的维度大小，而神经网络载这方便十分优秀，只需要调整输出层的节点数，就能让输出符合目标维度大小。

生成器如何生成数据的？（以MLP为例）

使用多层感知机作为生成器生成数据的过程通常包括以下步骤：

输入噪声向量：生成器从一个预定的概率分布（通常是高斯分布）中采样一个随机噪声向量。这个噪声向量为生成过程提供了随机性，使得生成的每个样本都是独一无二的。
通过网络传递：这个噪声向量被送入多层感知机的第一个全连接层。数据在每一层被加权和，并可能添加偏置，然后通过一个激活函数（例如ReLU或LeakyReLU）处理以增加非线性。
层叠全连接层：经过第一层处理的数据将继续前向传播至多个后续的全连接层，每层可能使用不同的神经元数量和激活函数。在这些层中，网络学习如何将输入的噪声向量映射到数据空间。
输出层：最后一层通常是一个全连接层，其输出的维度与目标数据的维度相匹配。例如，如果目标是生成28x28像素的图像，则输出层应该有784个神经元（即28*28），并且通常会使用Sigmoid或Tanh激活函数来确保输出值在适当的范围内（如0到1之间）。

生成器的大致流程

上述图片描述的一个随即噪音 Z ，当然我们说这个 z 也是来自某个分布的随机采样，所以有 Z 服从F分布；接下来生成器 G 接受 z 作为输入，输出一个符合目标维度的数据。此时生成器中的权重矩阵是随机的，将在后续步骤中更新。我们想探究参数究竟是如何更新的？

补充：要使生成的结果尽可能的完美，生成器和判别器之间的学习率设置必须保持平衡，以便两者都能有效地学习并逐步提高自身的能力（良性竞争）。

如果生成器的学习率过高，判别器无法识别出假品，生成器可能无法充分学习如何制作更高质量假品，导致生成的假品质量不稳定。

如果判别器的学习率过高，它可能会过于迅速地识别出当前生成器的缺陷，而没有给生成器足够的时间来适应和改进，可能导致生成器陷入无法有效学习的境地。

我们希望两者共同进步。直至最后生成器胜出。这种动态平衡是GAN训练成功的关键。尽可能的平滑

损失函数（LossFunction）

我们都知道损失函数，就是用来衡量预测值与真实值之间的差距大小的函数，通过最小化我们的损失函数，来优化更新参数，使得预测值和真实值能尽可能的接近。自然而然，处理的问题不同，对应着有不同的损失函数，也就是衡量“差距”的方法不同。常见的损失函数有均方误差（欧几里得距离）、平均绝对误差（曼哈顿距离）、交叉熵损失、合页损失、对数损失 等等

明白以上内容就好办了。还记得我们前面背景介绍中提到过的“分布”么，我们的输入输出都被视为满足某种分布，我们要衡量两种分布间的差距，该如何进行呢？这里就不得不说到KL散度与JS散度了（有同学会问，交叉熵损失也是衡量两个概率分布之间差异的一种方式，为什么不用交叉熵作为损失函数呢？且听我细细道来）

KL散度

KL-divergence(Kullback–Leibler divergence)，KL散度，KL距离，又叫相对熵(relative entropy)，衡量两个概率分布之间的不同程度，是描述两个概率分布P和Q差异的一种方法

当P(x)和Q(x)的相似度越高，KL散度越小。

KL散度主要有两个性质：

（1）不对称性

尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即D(P||Q)!=D(Q||P)。

（2）非负性

相对熵的值是非负值，即D(P||Q)>0。当且仅当 P=Q 时，KL(P∥Q)=0。

从上面我们可以知道，KL散度衡量的是从一个真实分布P来近似一个理论分布Q时，信息损失的程度。它是非对称的，这意味着D(P||Q)与D(Q||P)可能不同。这显然不是我们想要的，于是有了JS散度。

JS散度

JS散度也称JS距离，是KL散度的一种变形。解决了KL散度非对称的问题同样是二者越相似，JS散度越小。

（1）值域范围

JS散度的取值范围是 [0, 1]。这是因为 JS 散度可以被解释为两个分布之间的“距离”，并且其最大值发生在两个分布完全不相交时，这时相对熵达到了最大的平均信息熵，即 log⁡2log2，所以 JS(P|Q)≤log⁡2=1。当 P=Q 时，JS(P,Q)=0。相较于KL，对相似度的判别更确切了。

（2）对称性

即 JS(P||Q)=JS(Q||P)，从数学表达式中就可以看出。这是JS散度对于生成对抗网络等应用非常重要的性质。

交叉熵

在神经网络中，交叉熵可以作为损失函数，因为它可以衡量P和Q的相似性。

交叉熵和相对熵的关系：

以上都是基于离散分布的概率，如果是连续的数据，则需要对数据进行Probability Density Estimate来确定数据的概率分布，就不是求和而是通过求积分的形式进行计算了。

总结

虽然交叉熵损失也是衡量两个概率分布之间差异的一种方式，但它通常用于分类问题中的概率输出。在GAN的框架下，交叉熵可以被用于判别器的训练，其中判别器的任务是分类生成的数据是真是假。事实上，在许多现代的GAN变体中，比如DCGAN等，判别器确实使用了交叉熵损失。但在生成器和判别器的整体目标，JS散度提供了一个直接衡量两个分布距离的方法。

相较于KL散度，JS散度在处理不重叠的分布时更加平滑和稳定。在GAN的早期训练阶段，生成器产生的分布与真实数据分布可能完全不重叠，此时如果使用KL散度，可能会导致梯度消失或爆炸的问题。因此，在生成对抗网络中选择JS散度作为损失函数，可以帮助改善模型的训练过程和稳定性。

参考链接：https://www.cnblogs.com/qiynet/p/12304004.html

GAN原理-听不懂不要钱，哦对，本来我也不要钱_哔哩哔哩_bilibili

GAN原论文网盘：https://pan.baidu.com/s/1xsSk3KSSkqx5xwnVRq6JnA
提取码：78w7

GAN汇报PPT：https://pan.baidu.com/s/1PUFK8pKVjTzhneA6Ugq2jQ
提取码：a7ob

本文链接：https://blog.csdn.net/TyjphsQ/article/details/137818768

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

攻防世界_难度8_happy_puzzle_攻防世界困难模式攻略图文-程序员宅基地

文章浏览阅读645次。这个肯定是末尾的IDAT了，因为IDAT必须要满了才会开始一下个IDAT，这个明显就是末尾的IDAT了。，对应下面的create_head()代码。，对应下面的create_tail()代码。不要考虑爆破，我已经试了一下，太多情况了。题目来源：UNCTF。_攻防世界困难模式攻略图文

达梦数据库的导出（备份）、导入_达梦数据库导入导出-程序员宅基地

文章浏览阅读2.9k次，点赞3次，收藏10次。偶尔会用到，记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录，执行导库操作　　导出语句：./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log　注释：　　 cwy_init/init_123..._达梦数据库导入导出

js引入kindeditor富文本编辑器的使用_kindeditor.js-程序员宅基地

文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件，可以删掉不需要要到的jsp，asp，asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件，在页面引入js文件：<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js

STM32学习过程记录11——基于STM32G431CBU6硬件SPI+DMA的高效WS2812B控制方法-程序员宅基地

文章浏览阅读2.3k次，点赞6次，收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA，我们的数据线就会变为10101010，通过修改不同的内容，即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平，后半周期为低电平的状态。在SPI的通信模式中，CPHA配置会影响该实验，下图展示了不同采样位置的SPI时序图[1]。CPOL = 0，CPHA = 1：CLK空闲状态 = 低电平，数据在下降沿采样，并在上升沿移出CPOL = 0，CPHA = 0：CLK空闲状态 = 低电平，数据在上升沿采样，并在下降沿移出。_stm32g431cbu6

计算机网络-数据链路层_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输-程序员宅基地

文章浏览阅读1.2k次，点赞2次，收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决？5.如果在数据链路层不进行帧定界，会发生什么问题？6.PPP协议的主要特点是什么？为什么PPP不使用帧的编号？PPP适用于什么情况？为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输

软件测试工程师移民加拿大_无证移民，未受过软件工程师的教育（第1部分）-程序员宅基地

文章浏览阅读587次。软件测试工程师移民加拿大无证移民，未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...

随便推点

Thinkpad X250 secure boot failed 启动失败问题解决_安装完系统提示secureboot failure-程序员宅基地

文章浏览阅读304次。Thinkpad X250笔记本电脑，装的是FreeBSD，进入BIOS修改虚拟化配置（其后可能是误设置了安全开机），保存退出后系统无法启动，显示：secure boot failed ，把自己惊出一身冷汗，因为这台笔记本刚好还没开始做备份.....根据错误提示，到bios里面去找相关配置，在Security里面找到了Secure Boot选项，发现果然被设置为Enabled，将其修改为Disabled ，再开机，终于正常启动了。_安装完系统提示secureboot failure

C++如何做字符串分割（5种方法）_c++ 字符串分割-程序员宅基地

文章浏览阅读10w+次，点赞93次，收藏352次。1、用strtok函数进行字符串分割原型： char *strtok(char *str, const char *delim);功能：分解字符串为一组字符串。参数说明：str为要分解的字符串，delim为分隔符字符串。返回值：从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它：strtok函数线程不安全，可以使用strtok_r替代。示例：//借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割

2013第四届蓝桥杯 C/C++本科A组真题答案解析_2013年第四届c a组蓝桥杯省赛真题解答-程序员宅基地

文章浏览阅读2.3k次。1 .高斯日记大数学家高斯有个好习惯：无论如何都要记日记。他的日记有个与众不同的地方，他从不注明年月日，而是用一个整数代替，比如：4210后来人们知道，那个整数就是日期，它表示那一天是高斯出生后的第几天。这或许也是个好习惯，它时时刻刻提醒着主人：日子又过去一天，还有多少时光可以用于浪费呢？高斯出生于：1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答

基于供需算法优化的核极限学习机(KELM)分类算法-程序员宅基地

文章浏览阅读851次，点赞17次，收藏22次。摘要：本文利用供需算法对核极限学习机(KELM)进行优化，并用于分类。

metasploitable2渗透测试_metasploitable2怎么进入-程序员宅基地

文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功，进入系统4、测试如下：二、MySQL弱密码登录：1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功，进入MySQL系统3、测试效果：三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入

Python学习之路：从入门到精通的指南_python人工智能开发从入门到精通pdf-程序员宅基地

文章浏览阅读257次。本文将为初学者提供Python学习的详细指南，从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文，您将能够掌握Python编程的核心概念，为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf