关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3523人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

达姆施塔特工业大学发布SCICOQA数据集

科技行者 浏览 2507

富士通FMV Note A A77-K3笔记本:保留蓝光光驱,搭载AMD 7735U

IT之家 浏览 3764

赛季末巴黎频造新大师,这次小黑能一黑到底吗?

网球之家 浏览 3584

今年以来最亮彗星现身天际,它的名字叫“莱蒙”

新华社 浏览 3658

阿莫林将执教曼联3年!卡拉格开炮:没人相信拉爵,这么说太过火

奥拜尔 浏览 3769

蚂蚁集团首席执行官韩歆毅:以“数智普惠”惠及每一位老百姓

上游新闻 浏览 3388

女子毕业24年后起诉母校多收4000元学费 要求退一赔十

大风新闻 浏览 20605

春节档全盘点、春晚、中戏反腐、冬奥会等

电影最TOP 浏览 2035

苗圩:保障安全的前提下,科学有序推进人工智能技术落地

红星资本局 浏览 3868

哈马斯宣布将解散加沙政府机构 并准备移交管理权力

国际在线 浏览 2658

尘埃落定!全部划归国资!许家印的“御用包工头”被掏空家底

壹只灰鸽子 浏览 3775

64岁关之琳现身南京眼镜店,与老板娘喝下午茶

涵豆说娱 浏览 3893

比亚迪洽谈收购大众德国“透明工厂”!曾经生产辉腾!

郑谊 浏览 356

洋河股份董事长顾宇首次交出季度成绩单:日均亏掉400万

财经众议院 浏览 3617

单反绝唱:优雅技艺在职业网坛的黄昏

网球之家 浏览 3447

AI大佬Karpathy焦虑了:作为程序员,我从未感到如此落后

机器之心Pro 浏览 2896

解放军突然亮出大量东风17 竹林起竖画面被央视公开

小涛叨叨 浏览 9123

新年将至 普京问候前线俄军:感谢英勇的所有人

看看新闻Knews 浏览 2826

保姆机器人来做饭!全国人大代表、海尔集团董事局主席周云杰:机器人会成为新的家电

时代周报 浏览 1883

强生爽身粉致癌案新进展:被判赔单一原告近70亿元

红星新闻 浏览 5064

油价大跌5%,这一轮石油危机是否已经告一段落?

郭施亮 浏览 1630
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1