关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者2398人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

300353,重大资产重组!明日复牌

中国基金报 浏览 3442

沃尔沃中国未来姓沃还是姓吉?

禾颜阅车 浏览 3847

储能内卷的标准样本:黑马果下科技,究竟是如何速成的?

赶碳号 浏览 2701

中国加速构建具身智能数据标准体系 “浦江X”平台发布

上观新闻 浏览 3803

媒体:美航母编队一重要舰种 已经少于中国055大驱

新民周刊 浏览 37053

男子失业后瞒家人在车里住7天 车子手机都没电后哭了

极目新闻 浏览 30866

将于广州车展亮相 零跑A10路试谍照曝光

车质网 浏览 3494

赚了钱,反而有人说小鹏不是“小鹏”了?

速度计 浏览 3027

双电机还不够?三电机都来了 新款阿维塔12申报图曝光

网易汽车 浏览 2709

2026第一部「神」剧,诞生了

独立鱼 浏览 2127

iX3的“弟弟”来了,BMW iX1测试伪装曝光,2027年登场

ams车评网 浏览 3844

恩里克:登贝莱得流感了所以没来,我们已习惯这赛季没有他

懂球帝 浏览 3064

当反向过年走红 留在北京的网约车司机"狠狠捡漏"

第一财经资讯 浏览 19060

紫牛头条|小伙用激光把南京夫子庙扫描做成3D游戏 1:1还原精度到厘米,网友:可以赛博旅游了

扬子晚报 浏览 3798

大连有梅花鹿连续2天攻击游客 受伤女子:我没招惹它

极目新闻 浏览 23193

前英超裁判:桑德兰绝杀切尔西的进球因越位应被取消

懂球帝 浏览 3600

*ST沪科面临退市风险,或还因此前信披问题遭股民索赔

雷达财经 浏览 2436

曾成功应用于马斯克脑机接口临床实验!西门子医疗脑机接口全流程解决方案亮相

上观新闻 浏览 3445

微胖中年女人别乱穿!3个核心搭配技巧,轻松穿出优雅时髦感

静儿时尚达人 浏览 2818

同比翻倍:美国“造车新势力”Lucid 2025全年生产18378辆汽车

IT之家 浏览 2776

半年暴涨超470%!中际旭创,实控人拟套现22亿!

侃见财经 浏览 4240
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1