关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11142人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全网最后一批躺赚博主,也被AI挤兑失业了

新周刊 浏览 1011

詹姆斯经纪人旗下球员三人首日席卷3.9亿美元!范弗里特3年1.3亿

Emily说个球 浏览 15304

AI落地加速中,底层架构却成最大绊脚石?丨ToB产业观察

钛媒体APP 浏览 541

半两财经|首款eSIM手机发售 国内运营商加速“无卡化”

北青网-北京青年报 浏览 867

AI“孙燕姿”横空出世 歌手饭碗不保?但版权问题或成隐患

财联社 浏览 18433

吉利品牌登陆英国市场,目标 2030 年实现 10 万台汽车销量

IT之家 浏览 807

“马丁靴”输惨了!冬天穿这3双巨洋气

In风尚 浏览 13507

美英科技协议价值几何

中国经济网 浏览 1518

四个男顶流火了之后怎么变丑了?

想刊刊 浏览 13135

售17.58万起,吉利银河E8正式上市

天天汽车 浏览 12490

汕小伙5000元创业,如今3家工厂10家店,“睡地板也要当老板”

电商在线 浏览 993

塞尔维亚将建厂生产中国疫苗,未来可为周边国家提供疫苗

趣看热点 浏览 861113

每月抽查5%商家 外卖平台“新国标”落地

北京商报 浏览 177

理想基地获评2025汽车制造超级工厂 AI驱动智造新范式

智车情报局 浏览 39

陈晓陈妍希久违公开互动 夫妻俩追剧玩剧透太甜蜜

网易娱乐 浏览 19879

苹果新手机开售即破发 砍单到几乎停产

21世纪经济报道 浏览 5330

经典重构,法拉利SC40向F40致敬

爱驾天下 浏览 840

在7546米高峰上,一名女性登山者的月经难题

她刊 浏览 13413

奇才将蒙特-莫里斯交易至活塞

OnFire 浏览 15193

这是一个跨越二十四年的纪实长镜头

幕味儿 浏览 620

外媒:苹果大幅下调首款头显产量目标,因设计复杂和生产难度大

澎湃新闻 浏览 15336
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1