关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者775人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2月汽车投诉榜:宝马X3、极氪001、铃木维特拉位列前三

红星资本局 浏览 19704

E句话| 白姐从不爆假料?

仙女事件簿 浏览 686

永久冻土发现57000年前小狼崽,几乎所有组织都保存完好

趣看热点 浏览 25570

标配ADS高阶智驾 问界新M7 Ultra售28.98万起

网易汽车 浏览 11304

午评:创业板指半日跌3% 稀土永磁板块逆势爆发

网易财经 浏览 997

23岁富家女"嫁"51岁商人:找代孕生8娃 讨要2亿抚养费

极目新闻 浏览 75453

拜登要去我们这个邻国了,眼光瞄向中国

牛弹琴 浏览 14393

圆通速递高管利用家人账户短线交易被罚:浙商证券、国海证券等曾在高位给予“买入”评级

面包财经 浏览 13313

台"看守内阁"官员摆烂 媒体人:他们没把赖清德放眼里

海峡导报社 浏览 70425

OrangePi 6 Plus 开发板公布:12 核 CPU,双 M.2 SSD 双 5GbE

IT之家 浏览 970

38岁C罗游艇上冲凉惹关注!肌肉线条清晰如雕刻

译言 浏览 15636

女星微博之夜送礼翻车!三块钱粘毛器被指抠门,本人一个包就10万

萌神木木 浏览 12438

媒体:尹锡悦上台后一退再退 突破日方让步的底线

新京报 浏览 19325

特朗普"力挺"中国 高市闯祸能否拥有核武日本说了不算

空天力量 浏览 37881

蜜雪冰城开卖啤酒:价格5.9元至14.9元不等 只能外带

极目新闻 浏览 5022

八位堂推出“任天堂 NES 游戏机 40 周年”主体限定外设硬件

IT之家 浏览 947

张兰将开启淘宝直播首秀,带货麻六记、美容养生等相关商品

网易科技报道 浏览 19141

菲律宾接收两架武装直升机 声称将"显著提升海岛作战能力"

澎湃新闻 浏览 11035

奥特曼重新加入 OpenAI董事会;比特币突破7万美元大关;苹果中文官网出现Vision Pro|极客早知道

极客公园 浏览 12554

43天内两度被约谈引关注,携程的奔跑与隐忧

天下财道社 浏览 1018

泽连斯基接受采访期间马林斯基宫两度停电 俄官员回应

环球网资讯 浏览 602
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1