这两个看似简单的动词变化,标志着人工智能正经历一场从感知到创造的深刻革命。

第一次觉醒:让机器看见
ImageNet的诞生彻底改变了计算机视觉的发展轨迹。这个包含超过1400万张标注图片的数据集,为神经网络提供了前所未有的"教材"。
正如李飞飞在Caltech的一次演讲中所说:"作为一名第一代AI研究者,我有特权和责任帮助引导AI技术惠及所有人,而不仅仅是少数特权群体。"
ImageNet的成功不在于数据的庞大,而在于它揭示了一个深刻道理:机器学习需要像人类一样的"体验"。正如一个孩子通过大量观察学会识别物体,AI也需要通过海量图像数据来理解世界的构成。
当ImageNet催生的AlexNet在2012年ImageNet挑战赛中以压倒性优势获胜时,它不仅击败了竞争对手,更重要的是证明了一个革命性观点:深度神经网络能够从原始像素中自主学习特征,无需人工设计算法。
这一突破如同达尔文进化论般重塑了整个AI领域。

第二次觉醒:让机器理解空间
ImageNet让机器学会了"看见"——能够识别图像中的物体、场景、面部。但这种"看见"更多是一种静态的认知,如同一个人闭着眼睛听别人描述世界。
机器虽然能说出"这是一只猫在沙发上",但它并不真正理解三维空间中的因果关系、物理法则、以及物体间的相互作用。
世界模型的出现标志着AI从平面感知向立体理解的跨越。与传统的生成式AI不同,世界模型不是简单地生成图像或视频,而是构建对环境内部结构的完整理解。
Google DeepMind的研究员Tim Brooks在解释Genie 3时说:"世界模型是理解因果关系的模型,也就是说,世界模型与模型内部运作相关。"
这种理解能力的重要性超越了我们的一般认知。想象一下,人类能够仅凭一张照片就在脑海中构建出整个房间的立体布局,理解光影如何投射、家具如何摆放、人物如何在空间中活动。
这种三维空间智能是我们日常行为的基础,也是AI走向真正智能的关键门槛。
[图片](三维空间智能示意图:左半边是平面图像识别,右半边是由AI构建的完整3D房间模型,标注“空间理解”箭头贯穿其中)

第三次觉醒:让机器构建
Marble的发布标志着AI发展的第三个重要节点:创造。与Google的Genie 3(仅提供实时生成的临时世界)或OpenAI的Sora(专注于视频生成)不同,Marble能够创建"持久且可下载的3D环境"。
这不仅仅是技术的进步,而是质的飞跃。
World Labs联合创始人Justin Johnson描绘了一个令人震撼的场景:"你可以将其扩展一次。当你移动到世界开始破裂的区域时,基本上可以告诉模型在该位置或你当前位置附近生成更多世界,从而在该区域添加更多细节。"
这种能力让机器从被动的"观察者"变成了主动的"建筑师"。当用户上传一张客厅照片后,Marble不仅能重建这个空间,还能根据用户的意愿扩展它——添加新的房间、改变装修风格、调整家具布局。
这种创造力背后,是机器对三维空间物理法则、几何关系、视觉美学的深度理解。
创意控制的哲学意义
Marble最引人深思的设计是它坚持的"创意控制"理念。Johnson强调:"应该有一条快速路径来生成某些内容,但你也应能深入并对你生成的内容进行大量控制。你不希望机器完全掌控并剥夺你的创造力。"
这体现了AI发展中的一个重要哲学思考:技术与创造力的关系是什么?是在增强人类能力,还是在替代人类创意?
Marble采用的多模态输入系统——从文本、图像到视频、全景图——实际上是在模拟人类创造世界的多种方式。
而Chisel编辑器的设计理念更加深刻。它允许用户"勾勒出粗略的空间布局",然后让AI"填充视觉细节",这种结构与风格分离的方式类似于"HTML提供网站结构而CSS添加颜色"。
这不仅仅是技术架构,更是对创作本质的理解:人类的价值在于框架的构建,机器的价值在于细节的完善。
[图片](用户在电脑前操作Chisel编辑器界面,左侧是手绘草图,右侧由AI自动生成高精度3D场景,屏幕上方标有“结构+细节=共创”字样)

空间智能:通向AGI的必经之路
李飞飞在最近的宣言中提出了一个重要观点:"下一代世界模型将使机器在全新层面上实现空间智能。如果大语言模型能让机器学会读写,我们希望像Marble这样的系统能让机器学会观察和构建。"
这个观点的深刻之处在于它指出了AI发展的下一个前沿。与大语言模型专注于符号处理不同,空间智能涉及对物理世界的直接理解和操作。
这不仅对游戏和娱乐产业具有革命性意义,更在机器人、自动驾驶、虚拟现实等领域开辟了无限可能。
特别值得注意的是Marble在机器人训练中的潜在应用。Johnson指出:"与图像和视频生成不同,机器人领域缺乏大规模训练数据存储库。但借助Marble这类生成器,模拟训练环境变得更加容易。"
这意味着Marble不仅是创意工具,更是AI训练的"数字生态系统"。传统上,机器人需要大量的真实世界数据进行训练,成本高昂且存在安全风险。
现在,借助世界模型,机器人可以在无限的虚拟环境中学习、犯错、优化,然后安全地部署到现实世界。
技术竞赛的新格局
Marble的发布加剧了世界模型领域的竞争格局。目前的竞争者包括:
• Google的Genie 3(实时生成但持续性有限)
• NVIDIA的Cosmos(专注于游戏引擎)
• 众多仍在研究预览阶段的初创公司
但Marble的独特优势在于它的"商业化准备"。四种订阅层级从免费版到月费95美元的Max版,为不同需求的用户提供了选择。
这种商业模式的选择本身就是一个信号:世界模型不再是实验室中的概念,而是可以服务真实用户需求的成熟产品。
从市场规模来看,Johnson认为Marble的初始用例将是游戏、电影视觉效果和虚拟现实。
考虑到游戏产业对生成式AI态度的复杂态度——根据最近的开发者调查显示,三分之一的受访者认为AI对游戏行业有负面影响——Marble必须在技术优势和行业接受度之间找到平衡。
伦理与哲学的深层思考
世界模型的发展也带来了深层次的伦理问题。当AI能够构建任何想象的数字世界时,如何区分现实与虚拟?如何确保生成内容的原创性而不是对现有作品的模仿?
更重要的是,当机器拥有了"创造力",人类创造者的价值定位在哪里?
Marble的设计师显然考虑了这些问题。通过强调"创意控制"和模块化编辑,Marble试图确保人类在创造过程中保持主导地位。
机器的任务是扩展和完善人类的想象力,而不是取代它。
这种设计的哲学基础可以追溯到古希腊哲学家亚里士多德关于工具与人类能力关系的思考。技术不是要替代人类的独特性,而是要增强人类的可能性。
世界模型的出现,意味着人类第一次拥有了能够理解并扩展三维空间的数字伙伴。
结语:从观察到构建的技术史诗
从2006年ImageNet的标注工作,到2012年深度学习的突破,再到2024年Marble的商业化发布,我们见证了AI发展的一个完整周期:从识别到理解再到创造。
李飞飞的技术历程本身就是这个史诗般进程的完美诠释。
更重要的是,这些技术进步反映了人类认知世界的三个层次:
• 首先是感知层面的识别(这是什么)
• 其次是理解层面的推理(为什么会这样)
• 最后是创造层面的构建(能变成什么样)
当机器具备了所有三种能力时,我们正在接近一个重要的历史节点:AI不再是人类的工具,而是人类的伙伴。
正如李飞飞所说:"我们对真正智能机器的梦想,若没有空间智能,将是不完整的。"Marble的发布不仅仅是一个产品的诞生,更是这个梦想向现实迈出的关键一步。
在不久的将来,当我们在虚拟世界中工作、娱乐、学习时,我们会意识到这背后源于一位中国科学家的远见——她从让机器"看见世界"开始,最终实现了让机器"构建世界"的跨越。
这一跨越的意义超越了技术本身,它代表着人类第一次拥有了真正理解并扩展三维空间的智能伙伴。这种能力将如何重塑我们的世界,也许连创造者本人也无法完全预见。
但有一点是肯定的:我们正站在一个全新时代的起点上。
京公网安备11010502056287号