7月4日,昆仑万维发布了第二代奖励模型系列 Skywork‑Reward‑V2,并同步开源。这次推出了8款从6亿到80亿参数规模的模型,覆盖 Qwen3、LLaMA3 等多个基座。目前,它已在七大主流奖励模型评测榜单上夺冠,展现出相比上一代更全面、更稳定的表现。
Skywork‑Reward‑V2 背后的亮点是其“人机协同、两阶段迭代”数据构建机制。昆仑万维先由人工标注出数百万条高质量对比样本,然后用大模型批量扩充,最终构建了 Skywork‑SynPref‑40M,混合偏好对比数据规模达到 4000 万,并筛选出约 2600 万优质样本用于训练。
即便是小型模型(0.6B 或 1.7B),在 RewardBench 等测试中也已能媲美甚至超越更大规模的开源模型。这背后说明:数据质量优先,有时比模型规模更关键。
对从事 AI 模型训练、RLHF 实践或智能体开发的团队来说,Skywork‑Reward‑V2 提供了一个高性能、可落地的开源奖励模型基础。无论是对话助手、内容审核、教学辅导,还是多 Agent 协作系统,这类高质量奖励模型都能显著提升对齐效果与安全性。
模型已同步放出至 HuggingFace、GitHub,并附带技术报告,欢迎开发者直接使用或贡献改进。能看到国内团队在核心基础模型层面实现这种突破,也确实让人感到振奋——期待更多社区版本出现!