了解最新公司动态及行业资讯

昆仑万维开源 Skywork‑Reward‑V2,强化 RLHF 训练能力

发布时间:2025-07-10 作者:百仑科技 本文链接: https://www.cqbailun.com/industry/772.html 关键词:Skywork‑Reward‑V2, RLHF, reward model, 人机协同, 开源 AI

7月4日,昆仑万维发布了第二代奖励模型系列 Skywork‑Reward‑V2,并同步开源。这次推出了8款从6亿到80亿参数规模的模型,覆盖 Qwen3、LLaMA3 等多个基座。目前,它已在七大主流奖励模型评测榜单上夺冠,展现出相比上一代更全面、更稳定的表现

Skywork‑Reward‑V2 背后的亮点是其“人机协同、两阶段迭代”数据构建机制。昆仑万维先由人工标注出数百万条高质量对比样本,然后用大模型批量扩充,最终构建了 Skywork‑SynPref‑40M,混合偏好对比数据规模达到 4000 万,并筛选出约 2600 万优质样本用于训练

即便是小型模型(0.6B 或 1.7B),在 RewardBench 等测试中也已能媲美甚至超越更大规模的开源模型。这背后说明:数据质量优先,有时比模型规模更关键

对从事 AI 模型训练、RLHF 实践或智能体开发的团队来说,Skywork‑Reward‑V2 提供了一个高性能、可落地的开源奖励模型基础。无论是对话助手、内容审核、教学辅导,还是多 Agent 协作系统,这类高质量奖励模型都能显著提升对齐效果与安全性。

模型已同步放出至 HuggingFace、GitHub,并附带技术报告,欢迎开发者直接使用或贡献改进。能看到国内团队在核心基础模型层面实现这种突破,也确实让人感到振奋——期待更多社区版本出现!



上一篇:AVEVA中国智能创新中心成立,聚焦工业AI与数字孪生

下一篇:苹果发布《欧盟地区应用更新》,开放应用商店外购买路径

行业资讯相关文章
更多

I NEED TO BUILD WEBSITE

我需要网站建设

*请认真填写需求信息,我们会在24小时内与您取得联系。

友情链接: 媒推推 重庆网站建设公司