您的当前位置:首页 > 时尚 > 读万卷书,大模型「看」懂视觉世界?Meta揭秘LLM视觉先验的起源 正文
时间:2025-10-16 15:30:38 来源:网络整理 编辑:时尚
一个只见过文本的大语言模型LLM),在从未直接看过图像的情况下,竟然能学到可迁移到视觉任务的先验能力 —— 这是 Meta Superintelligence Labs 与牛津团队新论文的发现。近日,
一个只见过文本的读万卷书大语言模型(LLM),在从未直接看过图像的大模懂视的起情况下,竟然能学到可迁移到视觉任务的型看先验黑河市某某工程建设培训中心先验能力 —— 这是 Meta Superintelligence Labs 与牛津团队新论文的发现。
近日,觉世界Ma揭Meta 超级智能实验室(Meta Superintelligence Labs)与牛津大学的视觉研究者发布了一篇长达 33 页的重磅论文,通过超过 100 组受控实验、读万卷书耗费 50 万 GPU 小时的大模懂视的起庞大研究,系统性地揭开了 LLM 视觉先验的型看先验来源。 作者提出,觉世界Ma揭视觉先验可分为「推理先验」和「感知先验」,视觉并给出了一套预训练的读万卷书数据混合配方,用于在只用文本预训练阶段就「播下」视觉能力的大模懂视的起种子。
这项研究不仅解释了 LLM 无师自通学会看的型看先验秘密,更提出了一套预训练的觉世界Ma揭数据配方,旨在从语言预训练阶段就有意地培养模型的视觉黑河市某某工程建设培训中心视觉能力,为下一代更强大的多模态大模型铺平道路。
核心洞察:LLM 视觉先验并非铁板一块,源于两种独立的「先验知识」
研究最重要的发现是,LLM 从语言中获得的「视觉先验」(Visual Priors)并非单一的能力,而是可以分解为两种来源和特性截然不同的部分:
关键发现:少量视觉描述就够,海量推理数据是关键
大量实验:系统性揭秘 LLM 的视觉先验
团队进行了一系列精巧的实验,实验采用常见的 adapter-style 多模态适配流程 —— 先在只读文本的基础上预训练多种解码器式 LLM(沿用 Llama-3 风格架构,模型尺度从 340M 到 13B 不等,核心对比以 3B/7B 模型 为主),然后用同样的「视觉对齐 + 监督微调」的两阶段流程把视觉能力接入来衡量视觉先验,得出了 6 个结论并引入 3 个假设,这里节选:
简单来说,想要让一个 LLM 拥有强大的视觉潜力,关键不是给它读无数遍「天空是蓝色的」,而是让它通过解数学题、读代码来把「脑子」练聪明。
从理论到实践:一份增强视觉先验的数据预训练配方
基于以上发现,研究团队的目标从「解释现象」转向了「主动创造」。他们通过系统的实验,最终调配出了一套最优的数据混合方案,旨在平衡模型的语言能力和视觉潜力。
实验结果表明,通过采用这种富含推理内容、同时配有适量视觉世界知识的「平衡配方」(Balanced model),训练出的 7B 模型在语言能力上与专门优化语言任务的预训配方训练的模型达到了更优,同时在所有视觉基准测试中都实现了全面超越。
这证明了,通过精心设计文本预训练数据,我们可以「未卜先知」地为模型注入强大的视觉先验。
意义与展望
这项研究的意义深远,它将多模态模型能力的培养,从依赖下游微调提前到了语言预训练阶段。
它展示了,核心的推理能力是一种可迁移、与模态无关的基石。这为「柏拉图表征假说」(Platonic Representation Hypothesis)提供了有力的经验支持 —— 即文本和图像只是现实世界在不同模态下的「投影」,一个足够强大的模型可以仅从一种投影中,学习到这个世界的统一内在结构。
未来,LLM 的预训练将不再仅仅是单模态的事。模型设计者从一开始就可以考虑其未来的多模态应用,通过在预训练阶段「播下视觉的种子」,来构建一个更强大的跨模态智能基础。
更多技术细节和实验分析,请参阅原论文。
作者介绍
韩俊霖(Junlin Han)是这篇论文的第一作者兼项目负责人。他目前是 Meta 超级智能实验室的研究员,同时也是牛津大学 Torr Vision Group 的博士生,师从 Philip Torr 教授。他的研究兴趣聚焦多模态智能系统,先后在跨模态数据生成、3D 生成模型等领域开展研究。此前,他以一等荣誉毕业于澳大利亚国立大学,曾在顶级会议多次发表重要研究成果并组织研讨会。
文章第二作者 Peter Tong(童晟邦 / Shengbang Tong),目前是纽约大学 Courant 计算机科学系的博士生,导师包括 Yann LeCun 和 Saining Xie。他曾在伯克利人工智能实验室 (BAIR) 进行本科研究,师从马毅教授。研究方向包括世界模型 (world model)、无监督 / 自监督学习、生成模型与多模态模型。他曾获得了 OpenAI Superalignment Fellowship 和 Meta 的博士项目资助。
第三作者 David Fan现任 Meta FAIR 的高级研究工程师。他的研究方向集中在多模态表征学习、视频理解 / 自监督学习等领域。 在加入 FAIR 之前,他曾在 Amazon Prime Video 担任 Applied Research Scientist,参与视觉 - 语言 - 音频融合模型、视频理解和推荐系统等真实产品项目。他于普林斯顿大学获得计算机科学学位。
OpenAI再造爆款?AI视频社交应用Sora问鼎苹果热门App榜单2025-10-16 15:17
洋弟子“红楼梦游”金陵中秋夜2025-10-16 15:10
北京目前有13个地理标志保护产品,20个地理标志证明商标2025-10-16 14:57
香港武打演员徐少强9月初在北京离世,小他30岁的太太也相继离世2025-10-16 14:23
双节期间北京迎换机热 满减+免息分期助力消费2025-10-16 14:04
最新!“非洲手机之王”确认:财务负责人解除留置,已能正常履职2025-10-16 13:39
冠军凯旋!北京刷新世界技能大赛历史成绩2025-10-16 13:33
2024年下半年北京成人本科学士学位英语统一考试缴费19日开始2025-10-16 12:59
德国电信发布 AI2025-10-16 12:55
多家上市银行迎来"80后"正副行长!"90后"也崭露头角2025-10-16 12:44
他一婚娶学妹,二婚娶歌手,如今52岁又凭《沉默的荣耀》再次爆火2025-10-16 15:10
白蚁蚁后泡酒饮用?北京大兴机场海关查获用酒精浸泡的昆虫3瓶2025-10-16 14:21
《淬火》首次公开解放军多个关键信息2025-10-16 13:50
计划生育科室转型后,生育故事的一体两面2025-10-16 13:46
美国演员黛安基顿去世2025-10-16 13:45
中国日报漫画:横冲直撞的美国新自由主义,必将损害世界经济2025-10-16 13:44
正处于“香眼”阶段,颐和园百余盆桂花扮靓中秋节2025-10-16 13:39
泰山陪爬火了,包登顶,一单能挣100元,女客户居多,单子接不过来2025-10-16 13:36
北京这八条地铁国庆假期延时运营!延时至——2025-10-16 13:26
非洲小伙“寻楼记”:榫卯间读懂中国2025-10-16 13:13