关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro743人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

台大与中研院突破:新型防御技术实现AI深度内容遗忘

科技行者 浏览 2653

成龙称以前对儿子太严格了 现在只希望平安开心

韩小娱 浏览 2885

极氪8X车型最新谍照曝光,展示尾灯造型

IT之家 浏览 2850

秦雯编剧电视剧被央视撤档 此前王家卫秦雯录音惹争议

鲁中晨报 浏览 16306

吉利全球全域安全中心发布 领克900完成碰撞测试

太平洋汽车 浏览 2501

美国德州仪器与优必选达成战略合作

IT之家 浏览 2956

数字孪生+AI智能体技术突破,新思科技重塑芯片设计

第一财经资讯 浏览 4540

西班牙拒绝加入美国发起的“和平委员会”

国际在线 浏览 2462

美方被指仍在追截第三艘油轮 并拟增派力量强行登船

环球网 浏览 2832

今夏的意式优雅风,简约又好学

Yuki女人故事 浏览 1038

智能早报丨黄仁勋造访台积电3nm产线索取产能;万华化学突破机器人“仿生皮肤”材料

观察者网 浏览 3457

3岁童喝珍珠奶茶蹦床时不幸窒息身亡 家长发声欲追责

大风新闻 浏览 9572

奔驰誓言守护V12引擎,将继续推出十二缸车型

MOTO 浏览 4465

刘嘉玲在2.6亿豪宅办跨年宴,28岁侄子首露面

情感大头说说 浏览 2833

全市场:尤文与国米有意穆哈雷莫维奇,但萨索洛要留他到明夏

懂球帝 浏览 2961

卢伟冰公布小米17 Ultra手机首张样片

IT之家 浏览 2975

11国做出选择后特朗普喊话"中国将服软" 高市处境堪忧

胥言 浏览 8259

汪涵老婆带82岁母亲拍照,透露从芒果离职原因

心静物娱 浏览 3082

蔡磊进入渐冻症晚期:研发的药物对病友起效对他没用

潇湘晨报 浏览 9155

陈浩民夫妇滞留阿联酋,半夜发文怀念祖国

北纬的咖啡豆 浏览 1946

媒体:美军或捅破一个巨大的马蜂窝 与俄军在伊朗硬刚

新民周刊 浏览 6965
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1