爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

央视公开“点...

被霍尔木兹海...

高市＂反击计...

奇瑞再次否认...

泸州老窖前三...

张雨绮风波持...

长安马自达正在寻找新能源时代连接用户的新方式

剑指关键矿产，美牵头多国签署《硅和平宣言》

Meta团队揭秘大模型＂视觉天赋＂之谜：文本训练竟能培养看图能力

泽连斯基签署多项针对俄罗斯制裁令

赢了！《寒战1994》票房破2亿，港片丢的脸，让周润发挣回来了

路虎行驶7千公里检出＂缸体沙眼＂厂家仅同意换气缸盖

真心话大冒险开启，谁是你的双11购物车ONEPICK?

车企的零自燃宣言，谁才是真安全？

牛弹琴：“可怜”的泽连斯基又被特朗普“戏弄”了

高管“换血”，股东内斗落幕！200亿淳厚基金迎国资入主

特朗普威胁对尼日利亚动武中方表态

“长+短”穿法今年冬天又火了！照着穿时髦又显高

记者：阿布拉汗应该是河南第一签，阿奇姆彭难留

男子50多万买66台苹果手机放平台出租如今钱机都没了

他们是“追逐声音的人”

美国或＂最快本周＂再次对俄罗斯动手已和27国讨论计划

‍9.7分，成本400万，票房破2亿？陈思诚也压不住，年度黑马来了

递交亮眼成绩单！中国人寿前三季度新业务价值强劲增长41.8%

拜托，她可是陈妍希诶！

强奸大嫂凶手出狱去大嫂家大嫂吓得穿内衣跑街上求救

MRAM，台积电重大突破

终端价普涨！茅台9月动销同比增20%，机构称白酒行业底部愈发清晰

她是钟小姐的穿搭榜样，从20岁到70岁，每一套都让人想copy

大陆制裁3家涉对台军售美企国台办回应