关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者773人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

东升西降?拆解全球车企三季报,中国车企业绩更稳

大李说车 浏览 347

杨紫连续七年为李现庆生,没有避嫌只有坦荡

娱乐寡姐 浏览 947

男子将邻居扔下楼是什么情况?致2死1伤一审判决获死刑

趣看热点 浏览 204335

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者 浏览 775

世界经济论坛报告:AI驱动的错误信息是全球最大的短期威胁

财联社 浏览 12475

运气太差了,努涅斯赛后说:兄弟,球就是不想进去

懂球帝 浏览 12544

杨颖全网账号解除禁言!风波三个月后频频试水,实力堪忧复出渺茫

萌神木木 浏览 12391

一场春节档,让人看到了62岁刘德华在内地的“窘困”

不八卦会死星人 浏览 12623

队记曝火箭无摆烂可能:13项筹码剑指四替补中锋 白魔崛起改1设想

颜小白的篮球梦 浏览 12413

曼城胜国米,《每日邮报》截图今日意大利三大体育报头版

直播吧 浏览 16594

乌克兰危机全面升级满两年 中国代表再次开启穿梭外交

央视新闻客户端 浏览 12632

值得借鉴的夏季“高级感”穿搭,简约实用又清爽,优雅与时尚兼备

Yuki时尚酱 浏览 11443

不知不觉 赵丽颖就变成这样了

西瓜小姐MWM 浏览 15083

梅德韦杰夫终结882天冠军荒,阿拉木图夺第21冠,一纪录让人惊讶

网球之家 浏览 909

赖清德当选之后网上出现"武统"声音 国台办回应

环球网 浏览 76523

差劲!维金斯17分钟6中1仅得3分 正负值-29最低

直播吧 浏览 12535

电动公交陷困境:电池衰减严重、停运,不敢开空调

界面新闻 浏览 14523

在美流浪博士老家镇政府:若其是美国国籍 无法介入

极目新闻 浏览 73998

东晋的开国皇帝和灭国皇帝各是谁?东晋为何走向灭亡

趣看热点 浏览 26014

牛弹琴:2025年最后1个月大戏上演 印度迎最重要客人

北京日报客户端 浏览 32222

熊园:“十五五”GDP目标——怎么定、定多少?

首席经济学家论坛 浏览 880
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1