爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

股价“闪崩”...

天空：曼城想...

男子醉驾撞死...

特朗普：我说...

陈晓新剧黯然...

吉利银河星耀...

与抖音退货服务“分手”，1300亿王卫有何打算？

天津警察学院两干部论文查重率超70% 校方:官方没认定

拉夫罗夫联大提议：以中俄为核心在亚洲搞个安全体系

走失女童被找到后父亲首度发声：感谢1.2万个恩人

媒体：中国该如何在军事部署上经营台湾如今值得思考

中国犀旺队｜欧塞尔共研青训，法国集训圆满结束

享界S9同款平台，极狐全新MPV也有小蓝灯

帽子选对，风格翻倍！冬日造型点睛术

这双美鞋从6岁到60+都能穿，穿对了复古又浪漫~

港科大突破：代码本技术提升AI医学图像分析稳定性

缅甸政府将拆除KK园区148栋建筑，其中包括KTV、医院和SPA会所，已拆除101栋

马卡：桑托斯与内马尔将合作，制定平衡俱乐部与国家队的计划

＂杭州湾X5＂来了 40万级性能插混极氪8X官宣

蔚来李斌：“降低事故率”和“使用时长”是衡量智驾能力的核心指标

全运会女足综述：王霜制胜湖北2-1进4强张琳艳世界波北京1-3上海

smart精灵#3艺术特别版上市售18.49万

官方：福建浔兴SBS俱乐部签下法国中锋约安-马昆杜

用AI演戏，Vidu 的三重进化，AI视频从碎片化叙事迈向复杂叙事新阶段

特朗普称认定委内瑞拉现政府是“外国恐怖组织”

伊姐周六热推：电视剧《不眠日》；电视剧《照镜辞》......

美媒公布美军打击委内瑞拉蒂乌纳堡基地后景象

国家互联网应急中心提示“龙虾”风险

新能源车主必看，动力电池已经规模化退役

郎酒9月发布的会员尊享酒，为何成懂酒人的优选？