模板社区
基于人类反馈强化学习示意图
立即使用
41
0
1
举报
发布时间:2024年05月10日
基于人类反馈强化学习示意图
基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),是指将人类标注者引入到大模型的学习过程中,训练与人类偏好对齐的奖励模型,进而有效指导语言大模型的训练,使得模型能够更好地遵循用户意图,生成符合用户偏好的内容。
发布时间:2024年05月10日
发表评论
打开APP查看高清大图
基于人类反馈强化学习示意图
下载eddx文件
下载客户端
立即使用
社区模板帮助中心,
avatar_url 艾伦
关注
他的近期作品
查看更多>>