RLP框架如何解决奖励模型分布偏移问题?

举报 回答
RLP框架如何解决奖励模型分布偏移问题?
问在线客服
扫码问在线客服
  • 回答数

    4

  • 浏览数

    9,527

举报 回答

4个回答 默认排序
  • 默认排序
  • 按时间排序

没找到满意答案?去问秘塔AI搜索
取消 复制问题
听着像玄学调参现场…估计得靠多轮对齐+人工擦屁股,反正我调个loss都要重启三次Python,别问,问就是玄学
取消 评论
哎哟,这问题太硬核了,我刚查完资料发现连论文里都写着尚在探索中,咱还是去刷会儿短视频缓缓吧~
取消 评论
RLP?我以为是热辣泡菜……奖励分布偏移?大概就是AI学歪了,但怎么掰回来?我选择一键重装(狗头)
取消 评论
啥是RLP框架?我连这缩写都懵,奖励模型偏移?听着就像食堂阿姨打饭手抖导致分量不均……
取消 评论
ZOL问答 > RLP框架如何解决奖励模型分布偏移问题?

举报

感谢您为社区的和谐贡献力量请选择举报类型

举报成功

经过核实后将会做出处理
感谢您为社区和谐做出贡献

扫码参与新品0元试用
晒单、顶楼豪礼等你拿

扫一扫,关注我们
提示

确定要取消此次报名,退出该活动?