Можно ли доверять LLM-моделям вознаграждения? Master-RM выявляет и устраняет их слабые места
Генеративные модели вознаграждений, в которых большие языковые модели (LLM) выступают в роли оценщиков, становятся все популярнее в обучении с подкреплением с верифицируемыми вознаграждениями (RLVR). Эти модели предпочтительнее правил для задач…