关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者2365人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

匹克被指要求拒绝降薪员工写检讨否则就停薪 当地回应

上游新闻 浏览 9006

15年离婚拉锯落幕,“中国巴菲特”失去沃华医药实控权

野马财经 浏览 3394

以色列警告埃及不准使用中国导弹 特朗普突然对以下手

博览历史 浏览 36039

德甲欧战,还是只能靠拜仁、多特撑着

体坛周报 浏览 3559

基米希:十年前拜仁有很多个人主义,如今队友更愿为团队奉献

懂球帝 浏览 3542

1499元飞天茅台上线“秒空”,茅台金融属性退潮是伪命题吗?

郭施亮 浏览 2775

燕翔:微盘股策略的逆向投资特征

首席经济学家论坛 浏览 3677

辛纳晋级中网男单八强

体坛周报 浏览 4072

布云朝克特遭遇新赛季开门黑,周意送蛋横扫受到网友表扬!

网球之家 浏览 2845

“打飞的”半小时畅飞长三角,低空经济“飞入”进博会|聚焦2025进博会

华夏时报 浏览 3367

苹果计划在明年 3 月推出全新改版 Siri “借鉴” Gemini 技术

威锋网 浏览 3487

纯电续航325km 小鹏P7+增程版申报信息曝光

车质网 浏览 3531

毛不易演唱会撒圆形纸钱,本人:这吉祥吗?

一家说 浏览 4284

手机租赁平台"青云租"疑爆雷 女子9万上车被反套35万

封面新闻 浏览 15100

印度电动汽车市场:名爵份额逼近塔塔

车质网 浏览 3675

技嘉X870E X3D超级冰雕主板图赏:超大彩屏,五彩斑斓的白

IT之家 浏览 3313

美军宣布再次打击"贩毒船" 致4人死亡

环球网资讯 浏览 3502

或叫欧拉5?欧拉全新SUV要来了!

车叫兽 浏览 4493

只靠国产算力预训练,稳!全流程开源,「开元」盛世真来了

新智元 浏览 2879

明天会更一部灵异类电影,那就找几张鬼里鬼气的壁纸,大家收图

电影最TOP 浏览 2973

需求激增 流感药“新老对决”

北京商报 浏览 3304
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1