关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者613人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

冬天“半身裙”最丑的3种穿法!

Yuki女人故事 浏览 414

限量 100 台 电动 MINI JCW 蒙特卡洛 60 周年版上市

网易汽车 浏览 863

张学友被曝因病进ICU,8个月演100次太辛苦,曝罗美薇4年亏20亿

缘木不求娱 浏览 12416

数十农民工被拖欠百万工钱 劳务公司:争取春节前兑付

大风新闻 浏览 1897

陈坤疑又有俩孩子!带娃出街照曝光,生母再次成谜

萌神木木 浏览 14774

金与正: 如美国拦截朝鲜导弹 将被视为"宣战"

环球网资讯 浏览 19181

韦唯学霸长子晒清华大学硕士毕业照 和女友超甜

娱絮 浏览 15649

王子文前男友美国坐地铁,变黑变壮认不出,工作造假还想找女友

缘木不求娱 浏览 12503

【中超】恩里克2球迪力穆拉提世界波 梅州1比4玉昆

体坛周报 浏览 817

兰博基尼 CEO 温科尔曼称至少十年内不会放弃内燃机

IT之家 浏览 892

蔚来手机负责人更换,是因为产品不达预期?

钛媒体APP 浏览 12603

新款比亚迪夏限时19.68万起售!上车天神之眼B激光版,支持城市NOA

车东西 浏览 684

女子花费2000多元认养老虎 结果虎园隐瞒老虎死讯数月

大风新闻 浏览 28684

张颂文一句话登上热搜,这一次,他打了多少流量明星的脸?

不八卦会死星人 浏览 12616

身高1.8米丹麦女王退位 被称为"中国人民的老朋友"

极目新闻 浏览 77998

国际油价攀高 国内成品油零售价将迎今年来最大涨幅

澎湃新闻 浏览 110931

队记曝火箭无摆烂可能:13项筹码剑指四替补中锋 白魔崛起改1设想

颜小白的篮球梦 浏览 12446

周末重磅!特朗普关税突发,中美经贸磋商进展,下周三大事件

看财经show 浏览 783

林心如硕士毕业,每周末都要飞到上海上课,后来疫情原因转到台湾完成课程

趣看热点 浏览 28214

乌防长为向日本要援助 称"乌克兰和日本情况类似"

参考消息 浏览 16793

女人年纪大了怎么穿?试试:衣选长、鞋带跟,会叠穿,才优雅

静儿时尚达人 浏览 252
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1