关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11156人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

胡塞武装称24小时内2次袭击美航母 专家:有效打击很难

极目新闻 浏览 68204

学者:欧洲想实现核心发展目标 除了中国没有其他选择

澎湃新闻 浏览 4564

美国中央司令部:美军摧毁一枚胡塞武装反舰导弹

界面新闻 浏览 12155

NBA战报:勇士主场105-141惨败鹈鹕,库里仅15分

懂球帝 浏览 12870

对话郝飞:智能座舱新物种 斑马为端芯片带来的新机遇

网易汽车 浏览 980

京东高管余震继续,刘强东“心腹”闫小兵回归

北京商报 浏览 15741

进苏超决赛,泰州主帅:队伍分工明确,三个臭皮匠顶个诸葛亮

懂球帝 浏览 846

印度的“真正敌人” 莫迪挑明了

参考消息 浏览 21949

林志玲一家三口同框!混血儿子亮相

娱絮 浏览 16414

2026款ICON巧克力"心动紫"上市 限时7.98万起

网易汽车 浏览 803

卡霍夫卡大坝被炸后 拜登发声:我们将继续援助乌克兰

环球网 浏览 92196

美首任女海军作战部长:曾任驻韩美海军司令

环球网资讯 浏览 12578

交锋升级,贝弗利再diss特雷-杨:你是擅长得分助攻,但你是数据刷子

懂球帝 浏览 1674

国庆出游,就要这么“出彩”!

Yuki女人故事 浏览 1796

女人去油这件事,白衬衫最好使

Yuki女人故事 浏览 11507

为上清华15次参加高考 35岁广西考生:真没有那个实力

半岛晨报 浏览 91565

日本外务大臣:将探讨邀请泽连斯基出席G7广岛峰会

界面新闻 浏览 19202

机器人不约而同毛茸茸,年轻人抢着体验AI养老产品…首届WTCC太全面了

上观新闻 浏览 862

罗马诺:切尔西激活奥利斯3500万镑解约金,球员已同意加盟

直播吧 浏览 14277

县医院原党委书记被"双开":追求低级趣味违背公序良俗

红星新闻 浏览 87856

沃格尔:我们的表现不配赢球 我在末节该让布克投更多的球

直播吧 浏览 12655
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1