关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3485人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

白宫:特朗普正密切关注伊朗局势 并保留所有选项

央视新闻客户端 浏览 14020

澳P-8A军机侵闯中国西沙领空 解放军驱离

界面新闻 浏览 3700

独特艺术理解 宾利Batur定制车型官图发布

车质网 浏览 2584

到了秋天才知道,年纪大的女人要告别“小脚裤”,这样穿显瘦

静儿时尚达人 浏览 3664

东京车展首发 曝丰田世极轿跑SUV概念车官图

车质网 浏览 3230

许绍雄情况不乐观!黄宗泽低调现身,佘诗曼落泪取消行程前往医院

萌神木木 浏览 3571

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

澎湃新闻 浏览 2650

王小卤的双11:在抖音电商,把凤爪“嗦”成国民零食

一点财经 浏览 3528

女子代购海外"不老药" 疑遭职业打假人起诉"退一赔十"

大风新闻 浏览 5172

纯纯诈骗剧,浪费了一票女神

独立鱼 浏览 3534

特朗普取消"特普会"对俄追加制裁 俄发出强烈威慑信号

上游新闻 浏览 7987

预售13-15万元 北京现代EO羿欧将于10月29日上市

网易汽车 浏览 3749

蔡英文近期动作频频 王鸿薇:她觉得赖清德"不行了"

海峡导报社 浏览 11165

巴勒斯坦多派别谴责以方持续违反停火协议

国际在线 浏览 2423

多国欢迎加沙停火协议生效 呼吁尽快结束人道主义危机

上观新闻 浏览 3799

以高官:内塔尼亚胡判断失误 低估了袭击卡塔尔的后果

澎湃新闻 浏览 25811

乌方将向美提交新20点和平计划 泽连斯基表态

财联社 浏览 2503

飞天茅台批价首次跌破1700元,机构称“白酒需求仍在磨底阶段”

YOUNG财经 浏览 3585

Linux之父Linus配新电脑了!特别要求Intel锐炫B580显卡

快科技 浏览 3132

罗永浩炮轰电信宽带缩水:再不解决,就要在网上发疯了

观察者网 浏览 3005

两死者死于家中非交通事故 定损员伙同他人骗保120万

红星新闻 浏览 14407
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1