关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3556人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

男女情爱奇招尽出,碎碎念伍迪老爷再上阵!

幕味儿 浏览 3131

不露腿也想穿好看,最关键的是这一点

黎贝卡的异想世界 浏览 2541

高通遭反垄断调查,国产平替芯片机会来了?

禾颜阅车 浏览 3808

郭晓冬夫妇赶农村大集!程莉莎啃鸡腿不忘撒娇

裕丰娱间说 浏览 2428

陈坤儿子的生母,早在14年前就公开了?

归史 浏览 4191

红果年度男演员排名出炉,刘萧旭碾压登顶

洲洲影视娱评 浏览 2672

HuggingChat Omni 集成式 AI 平台发布

IT之家 浏览 3795

俄美乌新一轮三方会谈将举行 只剩一个问题却是死结

新民晚报 浏览 5880

10家车企补贴“倒计时” 谁在让利谁在锁单?

汽势传媒 浏览 3575

搭上芯片“黑马”新凯来的光伏龙头,高管集体减持,股价大跌超7%

红星资本局 浏览 3720

王涵 : 从资本市场视角看四中全会公报——提振信心,后市可期

首席经济学家论坛 浏览 3755

左脚低射破门,加纳乔成为切尔西队史第6位进球的阿根廷球员

懂球帝 浏览 3581

泽连斯基:乌美就领土问题讨论6.5小时

每日经济新闻 浏览 3142

意媒:尤文有意引进拜仁小将利契纳,但尚未与拜仁接触

懂球帝 浏览 3754

场均2.70分,阿隆索登顶皇马主帅前10场西甲场均拿分榜

懂球帝 浏览 3446

法尔克:曼城有意科隆前锋赛义德-马拉,巴黎和国米也在关注

懂球帝 浏览 3614

海报荐读|AI产品情绪价值开始“分化”;无障碍出租车为何预约难

上观新闻 浏览 2895

阿尔特塔:英超是欧冠决赛的预演?我不认为球员会这么想

懂球帝 浏览 232

苹果彻查iPhone 17 Pro褪色:问题机型已被回收

快科技 浏览 3636

54岁闫妮和27岁女儿同框,母女性格相似如姐妹

小咪侃娱圈 浏览 3715

“比特币富婆”钱志敏在英国认罪,6.1万枚比特币市价已达493亿元,赃款归谁?

红星新闻 浏览 3530
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1