关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者844人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

詹姆斯:湖人的投篮困境终会过去;这周对我来说有点像训练营

懂球帝 浏览 391

劝中国原谅日本的黄循财被扒出家族史 祖父靠日军吃饭

博览历史 浏览 4913

国家统计局:2023年全年全国城镇调查失业率平均值为5.2%

国家统计局 浏览 12820

做企业,是一场反人性的修炼

创业家 浏览 886

太阳近18战15胜升至联盟第二 "保罗定律"再现神奇

网易体育 浏览 26282

OpenAI的iPhone时刻到了?

北京商报 浏览 12661

死亡人数增至44人!香港大埔火灾背后的宏福苑已42年楼龄

红星新闻 浏览 384

她们的氛围美,除了穿衣,这一点很关键

LinkFashion 浏览 12852

对乌输送武器不断 德国军火公司订单大增

环球网资讯 浏览 15269

瓦格纳负责人普里戈任动向成谜 旗下公司发声

界面新闻 浏览 16042

“大衣+毛衣”今年冬天又火了,这样穿时髦又高级!

LinkFashion 浏览 170

王嘉尔东京开唱,日本名流圈组团来“团建”?

情感大头说说 浏览 683

左脚低射破门,加纳乔成为切尔西队史第6位进球的阿根廷球员

懂球帝 浏览 793

报道称明年AI芯片产量拟提高两倍,寒武纪尾盘拉升,深夜“严正声明”:不实

华尔街见闻官方 浏览 197

斥资5000万美元,Meta前CTO让海洋帮忙除碳

DeepTech深科技 浏览 16357

折叠屏iPhone或于后年推出/华为知情人士回应P70延期发布/鸟山明去世,《海贼王》《火影》作者悼念

爱范儿 浏览 12418

药水哥真的是道歉第一名,跟向佐郑重的道歉

趣看热点 浏览 25772

杨丽萍离婚22年,富豪前夫依旧迷恋她主打守护

白面书誏 浏览 741

坐劳斯莱斯里,偶遇粤B88888,网友:有比这更狠的宾利吗?

总李谈车 浏览 960

绿色工业化定制内装需政府创造应用场景

经济观察报 浏览 12030

波兰呼吁向乌提供远程导弹 俄罗斯发出警告

参考消息 浏览 12752
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1