关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11159人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

【西甲】皇萨对决:姆总+贝林PK亚马尔+拉师傅

体坛周报 浏览 820

林俊贤景区打工,如今成了这样

动物奇奇怪怪 浏览 1002

有村架纯恋情曝光 与高桥海人已交往三年

网易娱乐 浏览 13278

邮报:欧文儿子因眼部疾病,放弃成为足球运动员

直播吧 浏览 12634

德邦快递实力夺魁:斩获中国跨境电商物流“头程物流标杆企业”奖项

中国经济时报 浏览 401

突发:阿斯巴甜或首次被认定为可能致癌物,可口可乐和这些产品也在用

爱范儿 浏览 15474

蔚来萤火虫上市半年多了,现在卖得怎么样了?

车轮生活 浏览 627

杨清柠翻车!未成年粉丝曝被其骗去整容,找三流医生整失败不负责

文艺圈娱乐号 浏览 12806

女明星生图的秘诀,真的就看这一点

《瑞丽服饰美容》 浏览 16403

外交部回应"中俄元首会晤会否涉及援助"提问

环球网 浏览 19364

苹果大幅削减头显销售目标至15万台 连自己都不看好?

手机中国 浏览 16202

中俄联合空中巡航期间 俄军机曾在中国机场起降

环球网资讯 浏览 16578

美议员:乌军真正取得改变冲突的进展极不可能

海外网 浏览 14771

缅甸政府军突袭KK园区 查获30套星链设备

红星新闻 浏览 6160

刘强东“10年1元年薪”之约到期,律师解构高净值人群如何妥善处理财产

红星资本局 浏览 1533

德国出台首份国家安全战略 称中国仍然是一个合作伙伴

环球网资讯 浏览 89836

乖宝宠物三季报后股价大跌,市值一天缩水近50亿

国际金融报 浏览 892

中年男人,比变老更可怕的是“选错发型”!显老土气,油腻感十足

潮人志Fashion 浏览 13382

社区团购迎来新对手,大战卷土重来?

Tech星球 浏览 14685

结婚4周年!Akira来台陪妻儿 获林志玲送甜蜜贺卡

扒虾侃娱 浏览 16692

台湾新北市长侯友宜:我反对“台独”

澎湃新闻 浏览 112627
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1