关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11157人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

A股放量拉升,北向资金大幅回流,反弹能否持续?

Wind万得 浏览 12827

53岁孙红雷现身眉毛快掉光显老 妻子素颜相伴在旁

叶公子 浏览 13432

何超莲豪宅度中秋,阖家团圆唯独不见窦骁?

不八卦会死星人 浏览 985

专家:若乌战败 波兰很快会掀起瓜分乌克兰的热潮

上观新闻 浏览 19690

50、60岁的女人就要这么穿!自然老去,不扮嫩反而更美了

静儿时尚达人 浏览 983

杉杉股份:涉原实控人郑永刚遗产继承事项,宁波青刚51%股权已处于冻结状态

界面新闻 浏览 18350

请准备好钱!成都车展重磅豪华SUV都在这

车市红点 浏览 20283

应聘者被骂「吃的不如狗」?格力回应;市占率存疑?影石回应市占率下滑及大疆价格战;零跑汽车辟谣将被一汽集团收购:消息不实丨雷峰早报

雷峰网 浏览 701

陆家嘴论坛,金融大佬们都讲了什么?

香帅的金融江湖 浏览 16150

湖北U20 1-0山东U20,范绪林点射制胜

懂球帝 浏览 621

斯基拉:格瓦迪奥尔距离加盟曼城一步之遥,年薪1000万欧元

直播吧 浏览 15624

网易传媒:新闻客户端视频内容消费占比超七成 文创IP领跑龙年授权市场

网易科技报道 浏览 14735

汇丰在美国法院受挫,因“挖角硅谷银行员工并窃取商业机密”面临超10亿美元诉讼

界面新闻 浏览 12427

《自然》刊发中国36个民族泛基因组参考,助解复杂疾病遗传因素

澎湃新闻 浏览 16554

股价飙涨市值逼近苹果 谁还能挑战英伟达?

第一财经资讯 浏览 12339

科技巨头疯狂投资AI基建,芯片厂商吞了云服务企业的利润?

澎湃新闻 浏览 995

进博面对面|爱茉莉太平洋许达仁:深耕中国,本土创新是制胜关键

中国商报 浏览 704

一年高速迭代、超2000万安装!鸿蒙版微信用实力回应质疑

雷科技 浏览 1037

剑南春|米兰1-0恩波利取3连胜,普利希奇制胜,奥卡福尔助攻

懂球帝 浏览 11934

胡塞武装:以军空袭萨那致9死174伤 包括大量妇女儿童

极目新闻 浏览 1477

4年3冠!王牌大比分4-0横扫水星夺冠,阿贾-威尔逊31+9+4

懂球帝 浏览 1017
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1