关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者614人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

为年轻用户打造Dream Car,零跑推出纯电掀背轿跑

Report汽车 浏览 661

高市早苗当选首相的"助攻手" 重点提携了"汉奸"石平

极目新闻 浏览 6023

美国禁令反噬!中国断供培育钻石,半导体巨头:完了,要停产!

木禾投研 浏览 964

美国财政部成功拍卖新年首批30年期美债 得标利率为去年8月来最低

智通财经 浏览 12810

P图只用一句话,小米超级小爱AI大模型“随心修图”上线

IT之家 浏览 548

召集全球高级将领开会前 美军试射4枚导弹

新民晚报 浏览 1493

马拉多纳之死又有新疑点,这可能是一场谋杀

趣看热点 浏览 25868

网传《披哥3》嘉宾名单,林志颖高启盛来了

甜小娱儿 浏览 15204

宁波网友投诉到理发店理发被诱导消费:1次花了6万元

潇湘晨报 浏览 5109

大S回应大翻车!对怀孕一字不提,拿爱孩子洗白,引发网友质疑

萌神木木 浏览 12098

斯卢茨基:马莱莱受伤让我感到遗憾,谢鹏飞的表现令人满意

懂球帝 浏览 12338

仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个

极客公园 浏览 854

许家印出事前,只有他提前果断脱离恒大,至今毫发无损

壹只灰鸽子 浏览 761

真宿敌!枪手旧将拉姆塞打趣布伦南-约翰逊:真希望他没去热刺

直播吧 浏览 14140

有图无真相?沙特空中球场网传渲染图与官方图片不一致

懂球帝 浏览 863

"富豪"承诺月嫂月薪1万5却1年只发5500 还向她借85万

极目新闻 浏览 3324

贾乃亮罕晒甜馨视频向女儿比心,网友嘲相处生分

盖饭娱乐官方号 浏览 19232

女子和前男友约会过夜 现男友在楼下守到半夜急到报警

汉史趣闻 浏览 88752

淦家阅:吉利今年将推3款全新新能源车型,以应对行业卷价格、卷服务、卷流量的态势

封面新闻 浏览 12372

阿隆索:我们在安菲尔德跑动太少?不能凭一场比赛下结论

懂球帝 浏览 664

早春灰黑白穿搭依然很流行,中年女人试试从这些外套入手,显气质

Yuki时尚酱 浏览 11612
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1