关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者621人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

德防长访印盯着52亿美元潜艇项目 德国将参与竞标

环球网资讯 浏览 16492

法医谈货拉拉女孩跳车事件,从窗户跳下的可能性不大

趣看热点 浏览 184429

小米推出“围观短剧”App:主打“无广告海量短剧免费看”

IT之家 浏览 1058

独家 | 好想来、良品铺子转型综合超市,筹划做“万市大集”

商业观察家 浏览 1059

朝鲜进行"核反击假想综合战术训练" 金正恩现场指导

环球网资讯 浏览 108183

不同于AITO问界Logo,华为申请WENJIE图文商标

IT之家 浏览 15418

AI芯片抢购浪潮停不下来! 马斯克感叹:每年需要耗费数十亿美元

智通财经 浏览 12541

IPO纵览|两会IPO重点回顾:强调提高上市公司质量,夯实市场之基

IPO日报 浏览 11271

工业边缘AI计算赛道升温,设备与芯片厂商抢占风口

21世纪经济报道 浏览 1448

超模回归 刘雯巴黎首日“霸屏走秀”

时尚丽人风行 浏览 19722

耗资3.5亿,中国版107分钟一刀不剪,好莱坞这部R级大片杀来了

靠谱电影君 浏览 690

版权问题日渐被重视!OpenAI据称正与多家媒体谈判

财联社 浏览 12781

中科云网50亿元光伏业务项目,突然欠薪放假!

证券时报 浏览 11097

英女足国门:对英格兰队来说外界施压很正常,小伙子们能搞定

直播吧 浏览 10474

11个月来首次进球,丹尼-英斯结束32场进球荒

懂球帝 浏览 11834

斯卢茨基:训练没强度意味着没质量,必须保持高强度、高节奏

直播吧 浏览 12673

武契奇:要让全国“几乎彻底解除武装”

参考消息 浏览 18875

24架F-35A隐身战机集结西太平洋

极目新闻 浏览 1040

一辆小米SU7 Ultra飞坡10多米翻滚多圈!车主发文:感谢雷军,下辆还买!

扬子晚报 浏览 950

蔚来 ES6 汽车将迎里程碑时刻,第 30 万台今年 11 月交付

IT之家 浏览 846

克洛普:曼城有最好的教练,最好的中锋,最好的英格兰球员

懂球帝 浏览 12338
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1