蚂蚁与清华开源强化学习框架AReaL-boba,数学推理能力达SOTA水平

3月31日,蚂蚁集团与清华大学联合推出开源强化学习训练框架AReaL-boba,研发团队采用该框架训练出数学推理能力达到业内领先水平(State-of-the-Art,SOTA)的7B推理模型,并以极低成本实现了32B推理大模型的高效复现。AReaL-boba的框架代码、训练数据、模型权重及技术文档已在inclusionAI社区全部开源,开发者可直接复现SOTA推理模型。

AReaL(全称Ant Reasoning RL)是国内首个完整开源的强化学习(Reinforcement learning,RL)项目。今年2月,AReaL发布了第一个开源版本AReaLv0.1,首次发布包含了基于AReaL系统的可复现实验,涵盖1.5B和7B参数的大推理模型,并在多种计算预算下进行了验证。一个月后,AReaLv0.2版(即AReaL-boba)便在上个版本上完成了重要更新,再次证明了RL Scaling的价值,加速了推理模型的能力发展。

AReaL-boba通过优化训练流程,显著提升了推理模型训练速度。相比上一代框架,其在1.5B、7B、32B模型上的训练速度分别提升35%、60%、73%。该框架支持大规模分布式训练,例如使用128张H800 GPU可在1天内完成1.5B模型训练,256张H800 GPU可在2天内完成7B模型训练。此外,AReaL-boba集成了被顶尖大模型Grok2采用的高性能推理框架SGLang,进一步提升了推理效率。

AReaL-boba的7B模型基于Qwen-R1-Distill-7B进行强化学习训练,在AIME 2024和2025测试中分别取得61.9分和48.3分,刷新了开源社区记录。通过数据蒸馏技术,AReaL-boba低成本高效复现了接近QwQ-32B模型的效果(AIME 2024得分78.8分,接近QwQ-32B的78.9分)。

《蚂蚁与清华开源强化学习框架AReaL-boba,数学推理能力达SOTA水平》

AReaL-boba的推出标志着强化学习训练框架在效率、性能和可扩展性上的突破,也为开发者提供了高效、低成本的解决方案,加速了推理模型的发展。

据了解,蚂蚁和清华组成的AReal研发团队计划持续开源训练代码、数据集及流程,并将优化异步训练、吞吐性能,升级数据集和算法,进一步提升框架能力。

点赞

发表评论

邮箱地址不会被公开。 必填项已用*标注