chatgpt中的强化学习 PPO_chatgpt使用的强化学习-程序员宅基地

技术标签: 算法  人工智能  chatgpt  

PPO? 强化学习

基本概念

强化学习五要素:智能体、行为、环境、状态、奖励。

先直接将五个要素映射到文本生成任务上:

智能体:生成模型。

行为: 获取当前step token的概率分布,并选取其中一个作为生成的token。

环境:一个评判标准,可以是模型,一般都是分类模型,seqgan是使用判别是否机器生成的分类器模型,chatgpt是人类偏好分类器;也可以是人为制定的评估标准,类似relu,rouge。

状态:当前step已生成的文本。

奖励:由环境结合当前的状态给出的分数。

状态价值的计算
V ( s ) = R ( s ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s ) V ( s ′ ) V(s) = R(s) + \gamma \sum_{s^{'} \in S} P(s'|s) V(s') V(s)=R(s)+γsSP(ss)V(s)
R ( s ) R(s) R(s): 当前状态的奖励

γ \gamma γ:折扣因子,因为当前的状态对后续的状态会随着步数的增加而减小。

先给出一个简单的例子:

一个生活中最常见的“吃饭”例子

在这里插入图片描述
好比吃饭可以带来奖励为6,折扣因子为0.8,对于吃饭状态的奖励值的计算为:
V ( 吃饭 ) = R ( 吃饭 ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s ) V ( s ) = 6 + 0.8 ( 0.5 ∗ V ( 喝酒 ) + 0.5 ∗ V ( 喝茶 ) ) = 6 + 0.8 ( 0.5 ∗ ( 3 + 0.8 ( 1.0 ∗ 10 ) ) + 0.5 ∗ ( 5 + 0.8 ( 1.0 ∗ 4 ) ) ) \begin{aligned} V(吃饭) &= R(吃饭) + \gamma \sum_{s^{'} \in S} P(s^{'}|s) V(s)\\ &=6 + 0.8(0.5 * V(喝酒) + 0.5 * V(喝茶))\\ &=6 + 0.8(0.5 * (3 + 0.8(1.0 * 10)) + 0.5 * (5 + 0.8(1.0 * 4)))\\ \end{aligned} V(吃饭)=R(吃饭)+γsSP(ss)V(s)=6+0.8(0.5V(喝酒)+0.5V(喝茶))=6+0.8(0.5(3+0.8(1.010))+0.5(5+0.8(1.04)))
问题:1)对于文本生成而言,我们无法对每个状态给出一个奖励,我们只有在一个样本生成结束之后,才可以评判一个样本生成的好坏。

2)假设我们要生成一个20字长的文本,生成器的词表大小是20000,我们的状态空间就是20000的20次方,这是显然我们无法接受。

求解方法:

蒙特卡洛

蒙特卡洛方法,也称为统计模拟方法,就是通过大量的随机样本来估算或近似真实值,比如近似估算圆的面积。

在这里插入图片描述

可以通过 圆的面积/ 正方形的面积 = 圆中点的个数/正方形中点的个数 来计算圆的面积。

类似的,在文本生成中我们也可以用蒙特卡洛方法来估计一个模型的状态价值。考虑到 一个状态的价值是它的期望回报,那么如果我们用当前模型采样很多条序列,然后计算从这个状态出发的回报再求其期望就可以了,这样我们就同时解决了上述的两个问题。

例子:

输入:今天的天气怎么样?

模型采样输出:1)s1 = 很抱歉,我无法回答当前天气情况,因为我没有实时获取天气信息的功能。 7

​ 2)s2 = 今天天气晴朗。 3

​ 3)s3 = 今天会下冰雹。 5

​ …
E π ( " 今天天气怎么样 ? " ) = ∑ τ R ( τ ) P π ( τ ) E_{\pi}(^"今天天气怎么样?^") = \sum_{\tau}R(\tau)P_{\pi}(\tau) Eπ("今天天气怎么样?")=τR(τ)Pπ(τ)
τ \tau τ 是我们任何可能生成的文本, π \pi π 是我们当前的生成模型,我们期望最大化 E π ( " 今天天气怎么样 ? " ) E_{\pi}(^"今天天气怎么样?^") Eπ("今天天气怎么样?"),既然要最大化,我们肯定需要对期望进行求导。
∇ E π ( " 今天天气怎么样 ? " ) = ∑ τ R ( τ ) ∇ P π ( τ ) = ∑ τ R ( τ ) P π ( τ ) ∇ P π ( τ ) P π ( τ ) = ∑ τ R ( τ ) P π ( τ ) ∇ l o g ( P π ( τ ) ) = E π ( " 今天天气怎么样 ? " ) [ R ( τ ) ∇ l o g ( P π ( τ ) ) ] \begin{aligned} \nabla E_{\pi}(^"今天天气怎么样?^") &= \sum_{\tau}R(\tau)\nabla P_{\pi}(\tau)\\ &= \sum_{\tau}R(\tau)P_{\pi}(\tau) \frac {\nabla P_{\pi}(\tau)} {P_{\pi}(\tau)}\\ &=\sum_{\tau}R(\tau)P_{\pi}(\tau)\nabla log(P_{\pi}(\tau))\\ &= E_{\pi}(^"今天天气怎么样?^")[R(\tau)\nabla log(P_{\pi}(\tau))] \end{aligned} Eπ(

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_38949258/article/details/129984562

智能推荐

python中文显示不出来_解决Python词云库wordcloud不显示中文的问题-程序员宅基地

文章浏览阅读2.6k次。解决Python词云库wordcloud不显示中文的问题2018-11-25背景:wordcloud是基于Python开发的词云生成库,功能强大使用简单。github地址:https://github.com/amueller/word_cloudwordcloud默认是不支持显示中文的,中文会被显示成方框。安装:安装命令:pip install wordcloud解决:经过测试发现不支持显示中文..._词云python代码无法输出文字

台式计算机cpu允许温度,玩游戏cpu温度多少正常(台式电脑夏季CPU一般温度多少)...-程序员宅基地

文章浏览阅读1.1w次。随着炎热夏季的到来,当玩游戏正爽的时候,电脑突然死机了,自动关机了,是不是有想给主机一脚的冲动呢?这个很大的原因是因为CPU温度过高导致的。很多新手玩家可能都有一个疑虑,cpu温度多少以下正常?有些说是60,有些说是70,到底多高CPU温度不会死机呢?首先我们先看看如何查看CPU的温度。下载鲁大师并安装,运行鲁大师软件,即可进入软件界面,并点击温度管理,即可看到电脑各个硬件的温度。鲁大师一般情况下..._台式机玩游戏温度多少正常

小白自学Python日记 Day2-打印打印打印!_puthon打印任务收获-程序员宅基地

文章浏览阅读243次。Day2-打印打印打印!我终于更新了!(哭腔)一、 最简单的打印最最简单的打印语句: print(“打印内容”)注意:python是全英的,符号记得是半角下面是我写的例子:然后进入power shell ,注意:你需要使用cd来进入你保存的例子的文件夹,保存时名字应该取为xxx.py我终于知道为什么文件夹取名都建议取英文了,因为进入的时候是真的很麻烦!如果你没有进入正确的文件夹..._puthon打印任务收获

Docker安装:Errors during downloading metadata for repository ‘appstream‘:_"cenerrors during download metadata for repository-程序员宅基地

文章浏览阅读1k次。centos8问题参考CentOS 8 EOL如何切换源? - 云服务器 ECS - 阿里云_"cenerrors during download metadata for repository \"appstream"

尚硅谷_谷粒学苑-微服务+全栈在线教育实战项目之旅_基于微服务的在线教育平台尚硅谷-程序员宅基地

文章浏览阅读2.7k次,点赞3次,收藏11次。SpringBoot+Maven+MabatisPlusmaven在新建springboot项目引入RELEASE版本出错maven在新建springboot项目引入RELEASE版本出错maven详解maven就是通过pom.xml中的配置,就能够从仓库获取到想要的jar包。仓库分为:本地仓库、第三方仓库(私服)、中央仓库springframework.boot:spring-boot-starter-parent:2.2.1.RELEASE’ not found若出现jar包下载不了只有两_基于微服务的在线教育平台尚硅谷

随便推点

网络学习第六天(路由器、VLAN)_路由和vlan-程序员宅基地

文章浏览阅读316次。路由的概念路由器它称之为网关设备。路由器就是用于连接不同网络的设备路由器是位于OSI模型的第三层。路由器通过路由决定数据的转发。网关的背景:当时每家计算机厂商,用于交换数据的通信程序(协议)和数据描述格式各不相同。因此,就把用于相互转换这些协议和格式的计算机称为网关。路由器与三层交换器的对比路由协议对比路由器的作用:1.路由寻址2.实现不同网络之间相连的功能3.通过路由决定数据的转发,转发策略称为 路由选择。VLAN相关技术什么是VLAN?中文名称叫:虚拟局域网。虚_路由和vlan

设置div背景颜色透明度,内部元素不透明_div设置透明度,里面的内容不透明-程序员宅基地

文章浏览阅读2.8w次,点赞6次,收藏22次。设置div背景颜色透明度,内部元素不透明:.demo{  background-color:rgba(255,255,255,0.15) } 错误方式:.demo{ background-color:#5CACEE;opacity:0.75;} 这样会导致div里面的元素内容和背景颜色一起变透明只针对谷歌浏览器的测试_div设置透明度,里面的内容不透明

Discuz!代码大全-程序员宅基地

文章浏览阅读563次。1.[ u]文字:在文字的位置可以任意加入您需要的字符,显示为下划线效果。2.[ align=center]文字:在文字的位置可以任意加入您需要的字符,center位置center表示居中,left表示居左,right表示居右。5.[ color=red]文字:输入您的颜色代码,在标签的中间插入文字可以实现文字颜色改变。6.[ SIZE=数字]文字:输入您的字体大小,在标签的中间插入文..._discuzcode 大全

iOS NSTimer定时器-程序员宅基地

文章浏览阅读2.6k次。iOS中定时器有三种,分别是NSTimer、CADisplayLink、dispatch_source,下面就分别对这三种计时器进行说明。一、NSTimerNSTimer这种定时器用的比较多,但是特别需要注意释放问题,如果处理不好很容易引起循环引用问题,造成内存泄漏。1.1 NSTimer的创建NSTimer有两种创建方法。方法一:这种方法虽然创建了NSTimer,但是定时器却没有起作用。这种方式创建的NSTimer,需要加入到NSRunLoop中,有NSRunLoop的驱动才会让定时器跑起来。_ios nstimer

Linux常用命令_ls-lmore-程序员宅基地

文章浏览阅读4.8k次,点赞17次,收藏51次。Linux的命令有几百个,对程序员来说,常用的并不多,考虑各位是初学者,先学习本章节前15个命令就可以了,其它的命令以后用到的时候再学习。1、开机 物理机服务器,按下电源开关,就像windows开机一样。 在VMware中点击“开启此虚拟机”。2、登录 启动完成后,输入用户名和密码,一般情况下,不要用root用户..._ls-lmore

MySQL基础命令_mysql -u user-程序员宅基地

文章浏览阅读4.1k次。1.登录MYSQL系统命令打开DOS命令框shengfen,以管理员的身份运行命令1:mysql -u usernae -p password命令2:mysql -u username -p password -h 需要连接的mysql主机名(localhost本地主机名)或是mysql的ip地址(默认为:127.0.0.1)-P 端口号(默认:3306端口)使用其中任意一个就OK,输入命令后DOS命令框得到mysql>就说明已经进入了mysql系统2. 查看mysql当中的._mysql -u user

推荐文章

热门文章

相关标签