关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者3604人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英超本赛季平均每场持续100分36秒,但净比赛时间只有54.7%

懂球帝 浏览 3854

随着西班牙3-0 世界杯16强定14席 中国队对手确定 亚洲仅韩国出局

侃球熊弟 浏览 3739

美官员称特朗普曾拒绝批准对台4亿美元军援 中方回应

北京日报客户端 浏览 4192

4名专家被饿晕拒绝评标 曾有女专家擅离评标室被处罚

澎湃新闻 浏览 8380

卡塞米罗重申必定离开曼联,不必再劝!曼联否认彻底轮休巴西双星

罗米的曼联博客 浏览 309

李书福砍了一刀,尹同跃打出一枪!车市大战硝烟弥漫

象视汽车 浏览 3450

小插曲,威尔士对比利时的世预赛中有老鼠入场短暂干扰了比赛

懂球帝 浏览 3754

雷军们没来,这届广州车展有啥看头?

道哥说车 浏览 3199

TA:告别全白球衣,阿森纳将在足总杯第3轮穿回传统红白球衣

懂球帝 浏览 2739

牛弹琴:2025年最勇敢的一个动作 背后是全世界的震惊

北京日报客户端 浏览 8969

许利民:曾凡博确实非常优秀,祝贺他回归首秀奉献如此精彩表现

懂球帝 浏览 2774

OpenAI发力机器人与AI设备,被爆寻找美国供应商

华尔街见闻官方 浏览 2579

被你们的金饰狠狠美到!这篇是大型种草现场

黎贝卡的异想世界 浏览 983

原来做自媒体的“成功心法”都是同一个

黎贝卡的异想世界 浏览 3592

浙BA决赛G3丽水队59-58杭州队避免被横扫,倪豪凯砍33分+准绝杀

懂球帝 浏览 2368

朱媛媛离世7个月后遗作定档,辛柏青状态令人担忧

林雁飞 浏览 2732

陈匡怡怒斥台媒毁人名节,自曝写了遗书

萌神木木 浏览 2356

记者:佛罗伦萨球员不满基恩500万高薪,后者态度也存在问题

懂球帝 浏览 3173

女人到了60岁也要好好穿衣!冬天认准大衣和羽绒服,舒适大方

静儿时尚达人 浏览 2781

百年同仁堂,怎么成了中药界的“南极人”?

花朵财经 浏览 2246

无缘提前2轮保级!武汉三镇54天不胜,6年首负新鹏城,4纪录告破

奥拜尔 浏览 3675
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1