关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro754人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

香港起火楼栋外围使用竹脚手架引关注 被指便宜易运输

上游新闻 浏览 30938

记者:切尔西已经向塞门约经纪团队进行了初步询价

懂球帝 浏览 2891

百度智能云公布两款自研AI芯片,昆仑芯比外界想象得更有野心

钛媒体APP 浏览 3469

自动驾驶将迎来巅峰对决

禾颜阅车 浏览 3473

人均预期寿命提高至80岁,失能老人如何有尊严地活着?两会代表委员建言:服务不能“一刀切”

时代周报 浏览 1701

综合续航超1600km/配RTD可变阻尼悬架 别克至境E7官图发布

网易汽车 浏览 2741

从夸克眼镜,到豆包手机,为什么巨头扎堆端侧AI?

华尔街见闻官方 浏览 3240

洛里昂vs布雷斯特:姆沃戈、马肯戈首发,迪纳-埃宾贝、阿若克出战

懂球帝 浏览 3680

破局“影子AI”!神州控股科捷小金Agent,打造行业供应链专家

野马财经 浏览 3737

伊朗高级将领:若遭美国攻击 以色列将成为首要报复目标

极目新闻 浏览 2338

韩星在内娱吃相越来越难看?

萌神木木 浏览 3306

9场9球,意甲刷新最低进球纪录?

体坛周报 浏览 3617

AI赋能体育教育新图景:构建中小学智慧体育新生态

南方都市报 浏览 3470

三只羊最美女主播解约!小杨哥最担心的发生了

首席品牌评论 浏览 2438

法甲:马赛2比1客胜斯特拉斯堡

体坛周报 浏览 4102

美政府部分“停摆”最早将于周二结束

国际金融报 浏览 2375

都灵主帅:我很尊重斯帕莱蒂,我们必须带着创造历史的信念比赛

懂球帝 浏览 3443

"闪赎闪卖"一座万达广场 王健林也玩起"资本游戏"?

BT财经 浏览 3020

日在野党提议自卫队改名国防军 中方回应

北京青年报-北京头条 浏览 4294

看了鲁豫对章小蕙的采访,最大感触是这一点

黎贝卡的异想世界 浏览 2482

国庆长假,基层的你休了几天?

识局 浏览 3715
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1