关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3513人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

与车企联合研发动力总成 全球首款混动无人机首飞成功

掌上金牛 浏览 2411

谈情也谈钱,浪漫又轻盈,这门亲事我同意了!

吐槽电影院 浏览 2062

钱志敏突然当庭认罪震动旁听席 刑期或减免三分之一

封面新闻 浏览 14557

俄称对乌实施大规模打击

极目新闻 浏览 2910

多人手机信号深夜同时消失 出海7次未带回1条鱼被抓捕

极目新闻 浏览 8001

委内瑞拉谴责美军扣押委油轮:国际海盗行为

环球网资讯 浏览 3049

香港理工大学团队开发全方位数据科学助手测评系统

科技行者 浏览 2580

商竣程击败阿古特排名重返TOP300,袁悦输球后笑容被指输也是赢

网球之家 浏览 2594

50+女人这么穿,简单款一样搭出“有钱人”的感觉,时髦利落

静儿时尚达人 浏览 5682

消息称三星Galaxy S27 Ultra将搭载更安全的Polar ID面部识别技术

IT之家 浏览 2448

五粮液前董事长李曙光被“双开”!卖酒类经销权牟利数额巨大,更多细节公布……

国际金融报 浏览 3628

媒体:马杜罗大难临头仍相信"不至于" 但美却赶尽杀绝

文汇报 浏览 8677

当人类把经验与想象力交给机器人,具身智能如何承载新内容?

刺猬公社 浏览 2508

衣服不用准备太多,找到一些实用的单品才最重要,百搭又有性价比

静儿时尚达人 浏览 303

你看不起的零跑,终于打响第一枪!

象视汽车 浏览 3545

美军高官称希望韩建核潜艇对抗中国 还引了句"蜘蛛侠"

澎湃新闻 浏览 44900

随着日本3-0,韩国4-2,U23亚洲杯最新形势:2支6分队未提前晋级

侃球熊弟 浏览 2662

今日热点:金鸡奖提名发布会;霉霉不出演超级碗中场秀的原因……

伊周潮流 浏览 4365

“欺诈重整第一股”现形,股民被蒙在鼓里数月,证监会下最后通牒

壹只灰鸽子 浏览 2920

欧盟行业代表:中方出手反制欧盟 法国这一次受伤最重

澎湃新闻 浏览 31085

机器人具身操作评估新范式来了,从此告别单一成功率指标

机器之心Pro 浏览 2429
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1