AI文摘

blog-thum
大模型RLHF中奖励模型的trick

【点击】加入大模型技术交流群引入在大家搞RLHF中经常遇到的一个核心的问题是,RM的水平不够好没法训练得到想要的效果,其背后两大类基本的原因是:1数据质量低。2模型泛化能力差。复旦MOSS这篇技术

read more