关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者3612人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

泽连斯基签署多项针对俄罗斯制裁令

国际在线 浏览 3750

赢了!《寒战1994》票房破2亿,港片丢的脸,让周润发挣回来了

娱乐圈笔娱君 浏览 335

路虎行驶7千公里检出"缸体沙眼" 厂家仅同意换气缸盖

澎湃新闻 浏览 10444

真心话大冒险开启,谁是你的双11购物车ONEPICK?

时尚COSMO 浏览 2998

车企的零自燃宣言,谁才是真安全?

百姓评车 浏览 3586

牛弹琴:“可怜”的泽连斯基 又被特朗普“戏弄”了

上游新闻 浏览 9556

高管“换血”,股东内斗落幕!200亿淳厚基金迎国资入主

独角金融 浏览 2657

特朗普威胁对尼日利亚动武 中方表态

极目新闻 浏览 3481

“长+短”穿法今年冬天又火了!照着穿时髦又显高

LinkFashion 浏览 2960

记者:阿布拉汗应该是河南第一签,阿奇姆彭难留

懂球帝 浏览 2757

男子50多万买66台苹果手机放平台出租 如今钱机都没了

潇湘晨报 浏览 8230

他们是“追逐声音的人”

上游新闻 浏览 3718

美国或"最快本周"再次对俄罗斯动手 已和27国讨论计划

澎湃新闻 浏览 13479

‍9.7分,成本400万,票房破2亿?陈思诚也压不住,年度黑马来了

靠谱电影君 浏览 327

递交亮眼成绩单!中国人寿前三季度新业务价值强劲增长41.8%

证券市场周刊 浏览 3649

拜托,她可是陈妍希诶!

时尚COSMO 浏览 2365

强奸大嫂凶手出狱去大嫂家 大嫂吓得穿内衣跑街上求救

澎湃新闻 浏览 93346

MRAM,台积电重大突破

半导体行业观察 浏览 3856

终端价普涨!茅台9月动销同比增20%,机构称白酒行业底部愈发清晰

澎湃新闻 浏览 4210

她是钟小姐的穿搭榜样,从20岁到70岁,每一套都让人想copy

黎贝卡的异想世界 浏览 3586

大陆制裁3家涉对台军售美企 国台办回应

界面新闻 浏览 3913
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1