关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro764人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

年销破28万辆!一汽解放斥资百亿元买理财,商用车龙头变“投资大户”?

时代周报 浏览 2435

世界上第一个AI设计的病毒问世|一周科技

知识分子 浏览 3576

小伙去理发被店家弄到VIP房间后脸白了 联系父母要钱

1818黄金眼 浏览 12311

“这件大衣”今年冬天又火了,怎么搭都高级!

LinkFashion 浏览 3073

外套里面穿什么?这4款内搭时髦又显瘦!

Yuki女人故事 浏览 5338

年薪超百万,京东开始挖汽车人!

电动知家 浏览 3650

71岁老太,专治穷病

她刊 浏览 755

孤本奉献,世界音像遗产日今日特别放送!❤️

幕味儿 浏览 3686

从估值75亿到破产清算:“网红”自嗨锅母公司落槌,被执行超2800万元

红星资本局 浏览 249

五一档票房超7亿,《给阿嬷的情书》开分9.0

澎湃新闻 浏览 322

2025世界最大主题词“:站队”和“选择”

浏览 26582

AI信任危机加剧:Sora视频“以假乱真”,国内灰产3元“洗白”水印

蓝鲸新闻 浏览 3867

AI大模型"减肥"新突破:MWS AI团队让语言模型变小却更聪明

科技行者 浏览 3729

倍耐力官方:下赛季取消C6;所有车队将在12月9日测试新胎

懂球帝 浏览 3257

北京现代纯电SUV EO羿欧开启预售 13–15万元

网易汽车 浏览 3491

日间为虫,夜晚化蝶,CHANEL的多变性

时尚COSMO 浏览 1796

阿莫林更衣室怒骂曼联球员,直言愤怒失望!基恩炮轰红魔如小学生

罗米的曼联博客 浏览 3022

撒贝宁随李白回加拿大探亲,俩人带着龙凤胎闲逛

二妹扯娱 浏览 3748

38岁的陈晓让整个娱乐圈“沉默”了?

包饺子ai剪辑 浏览 3350

特朗普自己亲口承认 中国送来的反制清单让他失去理智

头条爆料007 浏览 9399

苹果发布第二代Vision Pro开发者连接带,传输速率提升至20 Gbps

IT之家 浏览 3563
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1