关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro747人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

杭州女子洗完澡一抬头 发现窗外停着一架无人机

极目新闻 浏览 3739

印度总统乘坐“阵风”战斗机进行飞行体验

环球网资讯 浏览 3477

随着北京险胜,辽宁大胜,CBA最新积分榜:前四皆9胜2负 排名有变

侃球熊弟 浏览 2721

盈利大考冲刺关头,千亿小鹏被指“虚假宣传”

雷达财经 浏览 2699

日本宣布从南鸟岛海域采掘到含稀土的淤泥 外交部回应

环球网资讯 浏览 5874

携12大升级上市 比亚迪汉EV闪充版售价17.98万起

网易汽车 浏览 515

美国:对35个伊朗相关实体及个人实施制裁

央视新闻客户端 浏览 34081

央剧《生命树》播出4天,43岁杨烁口碑实现逆转

观察者海风 浏览 2506

索要1000万元逼死丈夫苏享茂 翟欣欣一审获刑12年

界面新闻 浏览 15934

霍汶希开工派利是好热闹!谢霆锋成最大财神

无心小姐姐 浏览 2048

李亚鹏官宣离婚!结束与海哈金喜3年婚姻,孩子将跟着母亲生活

扒虾侃娱 浏览 3770

美记@湖人盼尽快换凯斯勒!艾顿难堪大任 湖媒愿提高报价出2首轮

颜小白的篮球梦 浏览 3620

秦雯自曝袭警被抓后,让王家卫捞人找自己?

芊手若 浏览 3429

女人不管年纪多大,衣柜里都要准备几件衬衫,百搭耐穿又简约

静儿时尚达人 浏览 289

陈伟霆无预警官宣结婚生子,与何穗相恋6年终圆满,众星发声祝福

扒虾侃娱 浏览 3629

短剧圈再添一枚190cm美男,尔冬升都夸他帅

喜欢历史的阿繁 浏览 2386

邵佳一:退役画面还在脑海;做教练最适合我,离不开这个地方

懂球帝 浏览 2653

售14.98万 方程豹钛3推501km后驱Ultra版

网易汽车 浏览 3518

首富卷入惊天丑闻,妻子被瞒一无所知

Yuki女人故事 浏览 2417

上新|| 降温天不能错过的绝美毛衣,来了!

黎贝卡的异想世界 浏览 2584

中国海警:菲方侵闯中国领海 故意冲撞中国海警船

央视新闻客户端 浏览 4414
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1