爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

李婉华：但凡...

预售10.2...

帽子选对，风...

集微咨询发布...

限韩令太正确...

纵横外卖江湖...

人人都有囤积症？

英媒：梅努担心能否参加世界杯，热刺和纽卡在考虑签下他

媒体：特朗普对韩关税提高至25% 韩国汽车业天塌了

女生显老又土气的5款发型，真的别留了！

限时先享价25.98万吉利银河M9黑金智曜版正式上市

外媒称“美国指控古巴军队在乌克兰作战” 古巴驳斥

异构系统实现大模型推理加速与成本优化能力提升

太难！董路8年为足球小将砸1800万：不与球员签约但现在有点后悔

香港迪士尼偶遇奚梦瑶，儿子女儿被保镖贴身保护

陈运拿下华锋股份意欲何为

牛弹琴：中美领导人通话谈台湾问题特朗普比较清醒

记者：阿布拉汗应该是河南第一签，阿奇姆彭难留

解码科创成长层药企2025年成绩单

宁愿净身出户，也要与闫妮离婚的邹伟现状如何？

枪手又被黑？塔帅称VAR的解释不对

刘宇宁不想硬接剧，自己拍着不开心，称有些人扑一部又一部还在拍

切尔西本赛季英超10名不同球员破门，与阿森纳并列最多

磁浮底盘/全铝车身凯迪拉克新CT6上市28.99万起

燃油车的“智能”反击！2025广州车展燃油新车盘点

两种动力可选全新雷克萨斯ES将于4月上市

高校通报＂食堂花生米黄曲霉毒素超标11倍＂:学生未食用

马特塔：对阵佛罗伦萨首次首发，品尝错失的意甲滋味

国企6382.5万买沥青变＂水和空气＂沥青是否存在过成谜

66岁安帅径直离场！发布会暴怒：首负日本无法接受，点名狠批1人