关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3504人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国11月密歇根大学消费者信心创逾三年新低,短期通胀预期上升

华尔街见闻官方 浏览 3469

中央巡视后卸任七年的姜德果被查 曾任唐山市委书记

中国新闻周刊 浏览 24010

库克直播间带货 苹果换了打法

北京商报 浏览 3905

女网红流落柬埔寨街头 中使馆:已联系其家属准备接回

封面新闻 浏览 10016

特朗普在专机上提到与高市早苗通话:她是安倍的好朋友

红星新闻 浏览 9145

38岁何洁二婚丈夫刁磊,已经开始为她“争光”了

余鴡搞笑段子 浏览 3436

北京拿下“五万亿之城”,为何还成了AI之城?

BT财经 浏览 2031

京东11.11购物节官宣:10月9日晚8点正式开启

快科技 浏览 4278

今日热点:《怪奇物语》番外动画剧预告;NEWBEAT签约摩登天空……

伊周潮流 浏览 2825

何穗:新生亦重生

时尚COSMO 浏览 1779

未满14岁男孩刺死一陌生男子 作出三种不同版本供述

红星新闻 浏览 14348

穿搭不跟风、素颜不p图,她展示了40岁穿搭的另一种可能

黎贝卡的异想世界 浏览 2885

特朗普:以色列与哈马斯签署"20点计划"第一阶段协议

央视新闻客户端 浏览 3084

特斯拉Robotaxi撞车率约人类司机4倍

不看车bukanche 浏览 2053

消息称华为 WATCH Ultimate 2 手表明日露出,预估 6000~7000 元

IT之家 浏览 3376

换装全新设计语言 北京EU8申报图曝光

车质网 浏览 3768

加公有能!罗马5轮4胜仅失1球升第2

体坛周报 浏览 4198

檀健次孟子义横扫奖项背后,95后已全面接管内娱

爆米花放映员 浏览 2892

优质IPO企业站上资本C位

北京商报 浏览 3002

漆面个性 全新定制迈凯伦750S Spider发布

车质网 浏览 3053

7名中国游客溺亡于贝加尔湖 31岁幸存者被救细节披露

界面新闻 浏览 27221
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1