RLP框架如何解决奖励模型分布偏移问题？-ZOL问答

ZOL首页
产品报价
论坛
ZOL问答
更多
手机论坛笔记本论坛摄影论坛硬件论坛游戏论坛软件论坛 GPS论坛技术论坛办公论坛
手机客户端

数码爱好者必备神器

中关村在线客户端

Android版 iPhone版

RLP框架如何解决奖励模型分布偏移问题？

举报回答

RLP框架如何解决奖励模型分布偏移问题？

问在线客服

扫码问在线客服

回答数

4
浏览数

9,527

举报回答

4个回答默认排序

默认排序

按时间排序

没找到满意答案？去问秘塔AI搜索

取消复制问题

寄云静丹　

听着像玄学调参现场…估计得靠多轮对齐+人工擦屁股，反正我调个loss都要重启三次Python，别问，问就是玄学

评论

取消评论

精品应用推荐

万能数据恢复

双核浏览器

超值推荐

丿炫彩灬守护　

哎哟，这问题太硬核了，我刚查完资料发现连论文里都写着尚在探索中，咱还是去刷会儿短视频缓缓吧～

评论

取消评论

富婆加我　

RLP？我以为是热辣泡菜……奖励分布偏移？大概就是AI学歪了，但怎么掰回来？我选择一键重装（狗头）

评论

取消评论

良严盼香　

啥是RLP框架？我连这缩写都懵，奖励模型偏移？听着就像食堂阿姨打饭手抖导致分量不均……

评论

取消评论

最新回答更多>

ZOL问答 > RLP框架如何解决奖励模型分布偏移问题？

产品比一比查看详情 >>

相关问答

热门手机排行

查看更多排行 >

举报

感谢您为社区的和谐贡献力量请选择举报类型

广告内容反动言论色情内容其他违规违法内容

举报成功

经过核实后将会做出处理
感谢您为社区和谐做出贡献

扫码参与新品0元试用
晒单、顶楼豪礼等你拿

提示

确定要取消此次报名，退出该活动？

确定取消