关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3503人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

消失8年,这T0级演员突然复出了

独立鱼 浏览 3490

绿帽哥:切尔西就罗德里戈与皇马展开接触,计划冬窗完成交易

懂球帝 浏览 3407

斯坦福大学团队推出「许可证神谕」:让AI学会说「我不知道」

科技行者 浏览 2612

中国男子在意涉嫌抢枪被警察击伤头部 疑是两孩父亲

扬子晚报 浏览 9221

穆西亚拉庆祝梦幻回归

绿茵情报局 浏览 2687

日媒:中国U23仿佛在球场筑起万里长城,完成了数据上不可能的奇迹

懂球帝 浏览 2530

“五菱宏光家族焕新:燃油、增程、纯电三动力,5.48 万元起

IT之家 浏览 3440

告别“躺赚” 消金与小贷走向殊途

北京商报 浏览 2554

印度阵风又被击落,为啥法国战机如此不堪?

浏览 7543

官方:利物浦从德比郡召回23岁后卫欧文-贝克

懂球帝 浏览 2810

热度破9000,赵丽颖谭松韵令观众成功入坑,这部年底压轴剧太生猛

娱乐圈笔娱君 浏览 2919

五六十岁女性别瞎穿,教你三步解锁优雅气质,轻松告别油腻感

静儿时尚达人 浏览 3694

从嬉皮士到硅谷教父,他写了一本关于“维修”的书

DeepTech深科技 浏览 783

挪威王室不太平:王储妃深陷爱泼斯坦丑闻 其子涉强奸

澎湃新闻 浏览 102825

北航团队突破:让AI学会像人一样思考,不必每次都说出来

科技行者 浏览 2367

外观酷似G级 奔驰全新纯电SUV谍照曝光

车质网 浏览 2540

34年来首次 普京下令起草恢复核武器试验提议

红星新闻 浏览 3406

理想汽车启动门店合伙人计划:曝一线门店将参与分红

汽车服务世界 浏览 2017

搭载鸿蒙座舱 新款天籁将于广州车展上市

车质网 浏览 3416

九十年代的双生传奇:菲亚特Bravo与Brava

老爷车 浏览 3328

进化是否足够?法拉利Amalfi首测:新名字,旧传统

ams车评网 浏览 2729
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1