RLHF:基于人类反馈(Human Feedback)对语言模子举行强化学习【Reinforcem

[复制链接]
查看680 | 回复0 | 2023-8-23 11:39:35 | 显示全部楼层 |阅读模式
HuggingFace发表了一篇博客,详细解说了ChatGPT背后的技能原理——RLHF。
笔者读过之后,以为解说的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技能原理感兴趣的小同伴带来资助。
别的,文末整理了几篇关于 RLHF 最热门的12篇必读论文,卖萌酱打包好挂在公众号配景了,感兴趣的小同伴可以在公众号“夕小瑶的卖萌屋”配景回复【1212】领取。
在已往几年里,基于prompt范式的AI天生模子取得了巨大的成功,诞生了不少有意思的AI应用,比方AI写小说,AI写代码,AI绘图甚至AI做视频等。
但实在这种天生模子很难练习。以语言模子为例,大多是接纳“自回归天生”的方式,通过循环解码的方式来逐字或逐词天生内容。练习时往往简朴的基于上下文信息去推测下一个词,然后用交错熵来盘算每个词的loss。显然这种token-level的loss不能很好的从团体输出的层面去指导模子优化方向。
为了能刻画模子输出的团体质量(而不是单个词),人们往往用BLEU或ROUGH等评价指标来刻画模子输出与人类偏好的相近程度,但这也仅仅是在评价的层面,模子在练习的时间是见不到这些人类真实的偏好的。
因此,练习阶段,如果直接用人的偏好(大概说人的反馈)来对模子团体的输出结果盘算reward或loss,显然是要比上面传统的“给定上下文,推测下一个词”的丧失函数公道的多。基于这个头脑,便引出了本文要讨论的对象——RLHF(Reinforcement Learning from Human Feedback):即,利用强化学习的方法,利用人类反馈信号直接优化语言模子


抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文_夕小瑶的博客-CSDN博客
从零实现ChatGPT——RLHF技能条记 - 知乎
Illustrating Reinforcement Learning from Human Feedback (RLHF)

来源:https://blog.csdn.net/u013250861/article/details/128494971
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则