关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3509人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

学校食堂有食物黄曲霉毒素超标11倍 学生:食堂有"毒"

每日经济新闻 浏览 6741

AI狂热不敌冷峻现实:企业下调AI代理预期,实现全自动化仍需数年时间

华尔街见闻官方 浏览 3377

失误有点多,哈登15中6&三分7中1取22分8板7助1断2帽7失误

懂球帝 浏览 293

女单黯淡女双坚挺,金花2025交7冠答卷

网球之家 浏览 3490

普京与特朗普通电话 讨论伊朗局势

环球网资讯 浏览 1722

李想汽车研究院:让AI从"工具使用者"进化为"工具创造者"

科技行者 浏览 2343

除了卖汽水,这家外资巨头还在中国修飞机、开医院丨国是访问

国是直通车 浏览 3426

星际彗星 3I / ATLAS 亮度异常激增,科学家困惑不解

IT之家 浏览 3482

曝王灿兮杜淳分房睡!女方深夜发声否认:谁说的?我咋不知道?

扒虾侃娱 浏览 3539

增重三十斤拿下影帝,男演员多一位“橡皮人”,他几斤几两?

仙女事件簿 浏览 3664

寒风中南京数十名民工扒在桥栏上吃午饭 附近摊主发声

扬子晚报 浏览 8390

AI设计出可杀灭细菌的功能性病毒,专家呼吁谨慎推进

IT之家 浏览 4589

被称为“电动化”的时代 燃油车杀回来了?

道哥说车 浏览 3741

探展2025世界制造业大会:解锁“人机共融”新图景

中国商报 浏览 4484

太阳报:曼联17岁中场思韦茨随一线队训练,被比作佩德里

懂球帝 浏览 3912

海盗船发布《使命召唤:黑色行动 7》联名外设,含键盘等多款产品

IT之家 浏览 3314

福特烈马增程版申报信息曝光: 1.5T增程+弗迪电池

网易汽车 浏览 3809

马杜罗在美首次出庭表示不认罪:我仍是委内瑞拉总统

每日经济新闻 浏览 6103

十年间 火箭军武器装备实现跨越式发展

环球网资讯 浏览 2821

39岁李思思离开央视两年,商演小县城不摆架子

范櫳舍长 浏览 2045

年内首家省级农商行挂牌不到20天,快马加鞭启动第二批机构合并

湘财Plus 浏览 1050
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1