关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3567人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

胖东来发布针对博主"惊梦人"新声明:驳斥利益输送言论

大象新闻 浏览 14737

深蓝汽车房楠:四载深耕、技术破局、全球化竞争

网易汽车 浏览 525

赣州队1-0宜春队,总比分3-0夺得赣超冠军,卢欣头球破门

懂球帝 浏览 2921

赵露思新剧开播,直接拿下热播榜第一,硬刚资本的小花又站起来了

最爱酷影视 浏览 4254

0.95马赫!全球最快在役公务飞机Global 8000交付

IT之家 浏览 3050

伊朗军官:美以不再能随心所欲结束战争

央视新闻客户端 浏览 1766

希金斯晋级斯诺克北爱赛八强

体坛周报 浏览 3615

最「可爱」的全新酷路泽 FJ 上线,这真不是方程豹在日本失散的兄弟?

爱范儿 浏览 3615

18.51亿元!这家信托100%股权,第三次挂牌!

券商中国 浏览 2690

消失的1.8%,你的钱会发生什么

米筐投资 浏览 1574

三星被曝2026年发新款折叠屏手机,屏幕超7英寸、护照式设计,叫板苹果

智东西 浏览 3001

宗馥莉“被带走”?谣言背后,一个内讧的娃哈哈

大猫财经Pro 浏览 3159

杜兰特至少降薪4000万美元?高管建议火箭最多2年8000万与他续约

罗说NBA 浏览 3110

斯帕莱蒂为跑轰尤文注入灵魂,奥彭达被重新“救活”

体坛周报 浏览 2962

金莲花奖女配提名 85花顶流之争再升级

桑葚爱动画 浏览 3054

港媒:中美达成共识后,荷兰在接管安世问题上进退两难

环球时报国际 浏览 3668

日本拟引进乌无人机 其防卫预算首次突破9万亿日元

扬子晚报 浏览 125897

REDMI K90 Pro Max 可与 iPhone / 小米 17 Pro Max 通用钢化膜

IT之家 浏览 3624

媒体:放弃全球霸权 背叛美国的美国已不再自信

南风窗 浏览 7954

图片报:皇萨塔、曼联、拜仁、药厂、多特等球队关注艾希霍恩

懂球帝 浏览 1062

火遍全网的这件外套太好穿,我总结了几个实用搭配公式

黎贝卡的异想世界 浏览 3449
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1