关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者774人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国核聚变技术获国际原子能机构肯定,“环流三号”亮相聚变能国际大会

上观新闻 浏览 923

美团打车抽身离场,谁来“制衡”滴滴?

雪豹财经社 浏览 15626

美知名政客揭美军在乌秘密实验室 暗藏攻击中国的陷阱

环球时报国际 浏览 86131

韩媒:韩国站到对抗中国最前沿 往后一看美日却消失了

环球网资讯 浏览 92394

获皮奥利称赞!小法回应:很感谢他,去年曾联系他并聊了两个小时

直播吧 浏览 1626

吴千语施伯雄逛街被偶遇,勾肩同行幸福甜蜜,有说有笑松弛感拉满

扒虾侃娱 浏览 798

夏天穿裙子搭这几双鞋 又舒服又好看

七柒时尚笔记 浏览 19168

孙莉晒视频:小女儿长高许多 黄磊与儿子有爱互动

笑猫说说 浏览 19358

美的致富路,机器人暂未挑大梁

北京商报 浏览 663

内塔尼亚胡:以色列将不得不做出"痛苦且重大"让步

环球网资讯 浏览 1869

1月全球新能源:插混爆发,问界M7差点全球前三

汽车公社 浏览 12282

华南理工大学发生车祸致1死1伤 目击者:车头明显受损

封面新闻 浏览 33666

点地成毯的热巴,再次解锁新高定

时尚COSMO 浏览 12577

香港火灾已致超40人遇难 3名工程负责人涉"误杀"被捕

界面新闻 浏览 25599

次节觉醒,杨瀚森半场8中3得9分6板1助3帽3失误,正负值-3

懂球帝 浏览 535

耶伦:美国经济已实现软着陆 悲观情绪是毫无依据的

财联社 浏览 73907

伊姐周日热推:电视剧《超感迷宫》;电视剧《风与潮》......

伊周潮流 浏览 60

"移民压力不断上升" 波兰继续向波白边境地区增兵

环球网资讯 浏览 14527

小鹏汽车11月交付新车36,728台 1-11月累计交付391,937台

网易汽车 浏览 235

马祖拉:没人能防住东欧 他们一定会得分的 要把比赛看作一个整体

直播吧 浏览 10653

警方通报小米成都车祸: 驾驶员涉嫌酒后驾驶

网易汽车 浏览 1009
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1