设为首页
收藏本站
开启辅助访问
切换到窄版
登录
立即注册
只需一步,快速开始
首页
BBS
剑灵怀旧服
Unity
美术资源
UE
全套源码
其他内容
奖励任务
分享
Share
每日任务中心
搜索
搜索
怀旧插件
怀旧脚本数据
怀旧攻略
公益服开服通知
AI工具分享
Unity插件
Unity问题答疑
Unity学习教程
Unity AI算法
Unity源码
其他美术文件
MAY文件
3D Max
FBX模型
UE技术讨论
UE学习视频
UE源码
网站源代码
手机游戏源代码
PC游戏
游戏捏脸
其他插件
OFFER摸吧
魔兽地图
单机游戏
本版
帖子
用户
爱开源网
»
首页
›
数字人
›
人工智能
›
RLHF:基于人类反馈(Human Feedback)对语言模子举行强 ...
返回列表
发新帖
RLHF:基于人类反馈(Human Feedback)对语言模子举行强化学习【Reinforcem
[复制链接]
681
|
0
|
2023-8-23 11:39:35
|
显示全部楼层
|
阅读模式
HuggingFace发表了一篇博客,详细解说了ChatGPT背后的技能原理——RLHF。
笔者读过之后,以为解说的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技能原理感兴趣的小同伴带来资助。
别的,文末整理了几篇关于 RLHF 最热门的12篇必读论文,卖萌酱打包好挂在公众号配景了,感兴趣的小同伴可以在公众号“夕小瑶的卖萌屋”配景回复【1212】领取。
在已往几年里,基于prompt范式的AI天生模子取得了巨大的成功,诞生了不少有意思的AI应用,比方AI写小说,AI写代码,AI绘图甚至AI做视频等。
但实在这种天生模子很难练习。以语言模子为例,大多是接纳“自回归天生”的方式,通过循环解码的方式来逐字或逐词天生内容。练习时往往简朴的基于上下文信息去推测下一个词,然后用交错熵来盘算每个词的loss。显然这种token-level的loss不能很好的从团体输出的层面去指导模子优化方向。
为了能刻画模子输出的团体质量(而不是单个词),人们往往用BLEU或ROUGH等评价指标来刻画模子输出与人类偏好的相近程度,但这也仅仅是在评价的层面,模子在练习的时间是见不到这些人类真实的偏好的。
因此,练习阶段,如果直接用人的偏好(大概说人的反馈)来对模子团体的输出结果盘算reward或loss,显然是要比上面传统的“给定上下文,推测下一个词”的丧失函数公道的多。基于这个头脑,便引出了本文要讨论的对象——
RLHF(Reinforcement Learning from Human Feedback):即,利用强化学习的方法,利用人类反馈信号直接优化语言模子
。
抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文_夕小瑶的博客-CSDN博客
从零实现ChatGPT——RLHF技能条记 - 知乎
Illustrating Reinforcement Learning from Human Feedback (RLHF)
来源:
https://blog.csdn.net/u013250861/article/details/128494971
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复
使用道具
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
我爱您中国
16
主题
0
回帖
48
积分
新手上路
新手上路, 积分 48, 距离下一级还需 2 积分
新手上路, 积分 48, 距离下一级还需 2 积分
积分
48
加好友
发消息
回复楼主
返回列表
Omniverse
人工智能
其他
图文推荐
非绿色-黑鳍自动换角色组队吃药自动没疲劳刷金
2024-09-21
绿色-剑灵怀旧完整主线(10月更新)有韩服
2024-09-12
非绿色-定制AI全自动黑鳍V1.2
2024-09-14
剑灵三系精修端 星术咒3鬼3 T2 饰品属性外观
2023-08-16
Unity 超级马里奥
2023-08-22
热门排行
1
非绿色-黑鳍自动换角色组队吃药自动没疲劳
2
非绿色-定制AI全自动黑鳍V1.2
3
绿色-剑灵怀旧完整主线(10月更新)有韩服
4
剑灵三系精修端 星术咒3鬼3 T2 饰品属性外
5
Unity 超级马里奥
6
AI绘画stable-diffusion-webui指定GPU运行
7
非绿色-武神塔合集
8
非绿色-使用教程攻略
9
非绿色 3号自动切线 黑骑 钓鱼 蓝蛙
10
绿色-黑鳍脚本合集