爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

包贝尔老婆包...

大爆冷！北京...

将生产两款纯...

广汽回应一半...

塞纳河“上岸...

数百美军从卡...

陈晓新剧黯然收官！口碑崩塌评论区沦陷，和前妻陈妍希对打输惨了

“打飞的”半小时畅飞长三角，低空经济“飞入”进博会｜聚焦2025进博会

缅北魏家杀人要求＂打光所有子弹＂:尸骨呈跪姿头中7弹

英超本赛季平均每场持续100分36秒，但净比赛时间只有54.7%

随着西班牙3-0 世界杯16强定14席中国队对手确定亚洲仅韩国出局

美官员称特朗普曾拒绝批准对台4亿美元军援中方回应

4名专家被饿晕拒绝评标曾有女专家擅离评标室被处罚

卡塞米罗重申必定离开曼联，不必再劝！曼联否认彻底轮休巴西双星

李书福砍了一刀，尹同跃打出一枪！车市大战硝烟弥漫

小插曲，威尔士对比利时的世预赛中有老鼠入场短暂干扰了比赛

雷军们没来，这届广州车展有啥看头？

TA：告别全白球衣，阿森纳将在足总杯第3轮穿回传统红白球衣

牛弹琴：2025年最勇敢的一个动作背后是全世界的震惊

许利民：曾凡博确实非常优秀，祝贺他回归首秀奉献如此精彩表现

OpenAI发力机器人与AI设备，被爆寻找美国供应商

被你们的金饰狠狠美到！这篇是大型种草现场

原来做自媒体的“成功心法”都是同一个

浙BA决赛G3丽水队59-58杭州队避免被横扫，倪豪凯砍33分+准绝杀

朱媛媛离世7个月后遗作定档，辛柏青状态令人担忧

陈匡怡怒斥台媒毁人名节，自曝写了遗书

记者：佛罗伦萨球员不满基恩500万高薪，后者态度也存在问题

女人到了60岁也要好好穿衣！冬天认准大衣和羽绒服，舒适大方

百年同仁堂，怎么成了中药界的“南极人”？

无缘提前2轮保级！武汉三镇54天不胜，6年首负新鹏城，4纪录告破