关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3495人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

戴森新一代无叶冷暖风扇AM15发布,首发价3790元

IT之家 浏览 3431

宗馥莉辞职当天旗下公司宣布将使用"娃小宗" 原因披露

红星资本局 浏览 3705

美国大模型战局生变:Anthropic 甩出最强模型,OpenAI 陷内部分歧

创业家 浏览 1119

记录最近收获很大的一次深度链接

黎贝卡的异想世界 浏览 2013

李立群回应三个孩子都没结婚

大眼妹妹 浏览 3281

今年春天一定要拥有的针织,这样穿减龄又好看!

LinkFashion 浏览 2027

瓷器店里的蛮牛?非也! 兰博基尼在华20年成长路

网易汽车 浏览 3689

女子刚分的新房开着条缝 进门后发现地上有烧纸的灰烬

1818黄金眼 浏览 7095

锡安复出生涯首次替补18+6 鹈鹕送公牛9战第8败吉迪11+7+5

醉卧浮生 浏览 2947

三星被曝2026年发新款折叠屏手机,屏幕超7英寸、护照式设计,叫板苹果

智东西 浏览 3006

男子身穿"醋瓶子"跑马拉松成全场"显眼包" 本人回应

极目新闻 浏览 26064

梁靖崑一脸沮丧令人心疼!10-6手握赛点被逆转 腰伤困扰他9个月

颜小白的篮球梦 浏览 3245

燕翔:A股上市公司增减持特征与近况

首席经济学家论坛 浏览 3654

新年第一周,省委书记密集提出新要求!

国是直通车 浏览 2615

余承东任华为终端公司董事长,孟晚舟等卸任董事

蓝鲸新闻 浏览 2401

男子爬衡山丢80.88克金牌 失主:做好找不回的打算了

极目新闻 浏览 7021

爆火的“表演饭”,开始被年轻人避雷

餐饮老板内参 浏览 3141

白酒巨头一季报业绩普降,白酒拐点临近还是拐点远未到来?

郭施亮 浏览 520

徐彬:这边训练节奏快,能适应英国生活,语言已能听懂五六十

懂球帝 浏览 2374

夫妻本是同林鸟 但这次张杰也救不了谢娜?

除夕烟火灿烂 浏览 3157

违规拍摄涉密文件多人被处分 国安机关最新提示

新京报 浏览 8608
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1