关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3505人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

售7.98万元 比亚迪2026款海豹05DM-i上市

网易汽车 浏览 3718

雷军:第一代小米SU7已停售!

大象新闻 浏览 2393

《再见爱人5》收官,评论区被骂翻

白面书誏 浏览 2646

或2026年发布 全新大众T-ROC R渲染图曝光

车质网 浏览 3429

频曝食安问题、高管IPO前套现1.3亿!鸣鸣很忙上市太急?

互联网那些事 浏览 2609

2025款奔驰GLB 220典藏版上市 售价34.99万

车质网 浏览 2671

美特使被指教俄外交官"吹捧"特朗普 美媒披露通话记录

澎湃新闻 浏览 32817

突发!万科郁亮辞任

财通社 浏览 2663

中国人寿前三季归母净利润超1678亿元,高基数基础上同比增60.5%

证券市场周刊 浏览 3607

伊朗一间谍组织被瓦解 其主要成员曾多次前往以色列

极目新闻 浏览 2507

科贝:本轮西甲对阿隆索的未来至关重要,若战绩不佳可能下课

懂球帝 浏览 2993

中国女足在进攻三区传球成功率仅为64%,为四强球队中最低

懂球帝 浏览 1718

或搭载激光雷达 长城硬派越野车谍照曝光

车质网 浏览 2942

上汽零售赶超比亚迪

大象新闻 浏览 2674

有没有发现,女骑手越来越多了?

智谷趋势 浏览 4425

鲁媒:山东队将与宁波队、海牛与申花进行热身赛

懂球帝 浏览 2032

闭店风波后,实探“上上谦”仅存门店:薛之谦曾入股,周末用餐高峰仍需排队

时代周报 浏览 3442

熊园:“十五五”GDP目标——怎么定、定多少?

首席经济学家论坛 浏览 3725

网传 Stellantis 与东风深化合作,拟以岚图/猛士技术开发新车型

IT之家 浏览 3752

上海药物所突破:AI滤波器精准筛选神经系统疾病新药

科技行者 浏览 2415

菜鸟与蜜雪集团达成合作,为蜜雪打造AI供应链产品

财闻 浏览 3001
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1