AG真人国际(中国)官方网站不是什么都叫“宇宙模子”，李飞飞给出新界说

发布日期：2026-06-05 08:54 来源：未知作者：admin 浏览次数：

斯坦福大学 AI 科学家、World Labs 首创东谈主李飞飞。图片经由 AI 处理

文丨谢瑞瑞

剪辑丨徐青阳

"宇宙模子"是畴昔两年 AI 领域最常被说起的看法之一，但它的含义正在变得越来越笼统。

2026世界杯开运(中国)官方平台

视频生成模子、言语模子，以致连物理引擎都能自称是宇宙模子。

斯坦福大学 AI 科学家、World Labs 首创东谈主李飞飞于 6 月 4 日撰文，有益修起这种衰退。她开篇便给出判断：宇宙模子是面前 AI 领域最要紧、也最被花费的术语之一。

她在文中写谈，连古希腊东谈主都没给"宇宙"下过一个统一、公认的界说。"宇宙"从来不是一个具体的事物，今天，AI 也袭取了雷同的问题——宇宙模子的规模在那处？

李飞飞的料理念念路很明确：先分清宇宙模子的三个中枢功能——渲染、模拟、预备。

01 会通宇宙模子的钥匙，是一张旧图

在伸开解说之前，李飞飞先纪念了一张在强化学习领域使用了几十年的框架图：部分可不雅测马尔可夫有谋划经过（Partially Observable Markov Decision Process，POMDP）。这个框架的称呼很复杂，但逻辑却简明。

李飞飞将面前的宇宙模子系统分为三类，区别是渲染器、模拟器以及预备器

它描述的是一个轮回：智能体取舍举止，举止编削宇宙的状态，智能体从环境中取得不雅测值，再依据不雅测取舍下一步举止。轮回不息进行。

文中的"状态"，指的是物理学和机器东谈主学中的看法：在某个时期对宇宙气象的完好描述，涵盖每一个物体、每一个位置、每一组速率和每一项属性，对身处其中的任何智能体而言，恒久无法被都备平直感知。咱们能得到的，只是对现实的部分不雅测。

李飞飞进一步指出，这个由"智能体—举止—状态—不雅测—回到智能体"组成的闭环，赋予了当代宇宙模子确切的时期内核。

"宇宙模子"看法，最早不错追忆到 1943 年，由情态学家肯尼斯 · 克雷克（Kenneth Craik）在 1943 年忽视，即大脑通过运行现实的"小限制模子"来进行推理。到了 20 世纪 80 年代末、90 年代初，这个看法被引入神经集中连络。而今天，通盘被称为宇宙模子的事物，实践上都是团结个轮回在不同方进取的投影，每一类只输出轮回中的一个片断。

02 三类宇宙模子：渲染器、模拟器与预备器

李飞飞以为，面前通盘自称宇宙模子的系统可分为三类：渲染器、模拟器和预备器。

第一类宇宙模子是渲染器。它的输出是供东谈主眼不雅看的像素，中枢评臆想划是视觉传神度。

渲染器主要崇敬生成视觉画面，最主要的侦察范例是传神度

能将文本辅导鼎新为电影级航拍镜头的视频生成模子属于这一类，谷歌的 Genie 3、World Labs 自研的 RTFM 等交互式生成系统也在此列。这类模子对三维结构莫得显式会通，它们生成的是不雅众"会看到什么"，而不是"现实自己是什么"。

李飞飞在文中举了一个例子：航拍镜头中的建筑从上方看可能白玉无瑕，但如若试图驱车穿过下方的城市，画面就会分化判辨。原因很简便，渲染器的协议隧谈是视觉上的，它并不合画面背后的物理结构承担任何遭殃。

渲染器是面前买卖落地最锻真金不怕火的一类宇宙模子。谷歌的 Nano Banana 也曾将渲染级别的图像生成智商请托到数亿用户手中。

但它的天花板雷同了了——渲染器优化的是视觉合感性，而非物理准确性。它的输出令东谈主传颂，但不可被信托去想象建筑或测验机器东谈主。李飞飞对此总结谈：渲染器的输出天然璀璨，但你无法信任它们去承担那些与现实宇宙紧密攀附的任务。

第二类宇宙模子是模拟器。它输出的不是像素，而是状态，是一种在几何、物理和能源学层面高度保确凿宇宙表征。

模拟器的责任是构建恰当物理规矩的三维结构

模拟器的协议是结构性的：几何须须经得起注视，物理必须尊重客不雅规矩，能源学推崇必须恰当现实不竭。

它同期就业于两类受众：一类是东谈主类专科东谈主士，包括建筑师、想象师、电影制作主谈主和游戏拓荒者；另一类是诡计机步调，包括强化学习智能体、机器东谈主欺压器和自动驾驶汽车，它们将模拟器算作测验场，测试那些在现实中过于危境或崇高的场景。

李飞飞在文中有这么一段解说：如若说言语是对宇宙的一种轮廓描述，像素是对宇宙的一种视觉投影，那么几何、物理和能源学才是宇宙的本来容貌。模拟器必须缔造在这个层面之上。

她例如说，模拟器生成的几何结构和物理规矩就像一副骨骼——渲染器所需要的视觉外不雅、预备器所依赖的举止成果，都是从这副骨骼上滋长出来的。

这意味着，一个精明模拟的模子，不错将其会通鼎新为供东谈主不雅看的像素，也不错鼎新为供具身智能体使用的举止展望。而一个只是精明渲染或只是精明预备的模子，则作念不到这少量。这是模拟器与其他两类在智商上的实践互异。

第三类宇宙模子是预备器，输出是举止。给定一个不雅测值和一个主见，预备器需要回答的中枢问题是：智能体下一步应该作念什么。

预备器的责任是给智能体下达举止指示

在很多方面，这正巧是渲染器的逆向经过。渲染器以举止为输入并产生不雅测值，预备器则以不雅测值为输入并产生举止，从而完成"感知—举止"的闭环。

视觉 - 言语 - 动作模子、基于模子的系统，以及新近兴起的宇宙动作模子，实践上都属于预备器的尝试。这些系统旨在让机器东谈主在非结构化宇宙中自主决定下一步动作，平直输出一个可实践的有谋划。

这是最受关怀的新兴主见，与机器东谈主学习领域紧密络续。畴昔两年，种种机器东谈主演示视常常频激勉关怀：机械臂天真握取物体，双足机器东谈主在复杂地形上行走，机器东谈主在桌面上完成艰深操作等。

但李飞飞在文中指出，这些演示简直沿途局限在严格受控的实验室环境内，AG真人国际中国官网登录入口物体种类有限，任务周期很短。莫得任何一个系统在真实宇宙部署所需的复杂性、多变性或持久性方面得到过考据。

尽管时期尚未锻真金不怕火，买卖层面的押注却已开动。一批资金浑朴的新玩家正竞相推出通用预备系统。另一边，大型基础设施巨头则已搭建起重大的模拟平台，能处理从物理诡计到环境生成的多样任务，现在正把预备智商算作新功能加进去。

03 模拟器被低估了

在渲染、模拟、预备这三个类别中，模拟器取得的大师关怀最少，但它却是三者中影响最深入的一个。她的这篇著述，恰是为了料理模拟器在关怀度上的不合称。

买卖层面的想象空间雷同可不雅。李飞飞在著述中平直说起英伟达的 Omniverse 平台，它所对准的工场、仓库、供应链和数字孪生领域，潜在阛阓限制越过一万亿好意思元。机器东谈主测验、自动驾驶测试、建筑可视化、工程想象和药物研发等等，都依赖于模拟阵势的时期智商。

但模拟器靠近的挑战也最为严峻。

领先是数据问题：包含显式几何、材料属性和物理标注的三维数据，远比渲染器测验所依赖的互联网视频稀缺得多，出入以数目级计。互联网上有无穷无限的视频素材不错用来测验渲染器，但带有精确物理属性的 3D 钞票却极其有限。

其次是耐久存在的"模拟与现实差距"。无论模拟作念得何等艰深，编造环境中的测试拆伙迁徙到真实宇宙时，总会产生偏差。这个问题在机器东谈主学和自动驾驶领域也曾被反复盘考，于今莫得都备料理。

此外，生成式模拟器还引入了新的风险。AI 生成的几何体看起来可能正确，但可能包含自相交或失误比例，一朝跑起物理模拟，就会产生无理的拆伙。

临了是诡计资本的问题。在大限制多物理场景模拟中，刚体、可变形物体、流体和布料互相交汇，其诡计资本比单一领域的模拟跨越太多。这意味着，即使有了有余的数据和模子，运行这些模拟自己亦然一项崇高的工程。

李飞飞创办的 World Labs 推出了 Marble 系统，这是朝"统一模拟"迈出的第一步。它采纳文本、图像、视频或空间草图等输入，生成可交互的 3D 环境，同期输出两种拆伙：用于视觉呈现的高斯泼溅（Gaussian Splats），决定场景的视觉外不雅；用于物理诡计的碰撞网格（Collision Meshes），决定物体的空间规模与碰撞反馈。畴昔，视觉渲染和物理模拟是两套孤苦的系统，Marble 把它们整合进了团结个模子。

Marble 的出现让模拟器第一次同期兼顾视觉呈现与物理结构。但正如李飞飞所说，这只是一个开动。

04 三条界限，正在袪除

李飞飞的另一项中枢判断是：渲染、模拟、预备这三个类别，正在开动互相交融。

鼓吹这种交融的是一个共鸣——渲染一个宇宙、模拟一个宇宙以及在阿谁宇宙中取舍举止所需要的常识，在很猛进程上是通用的。

渲染、模拟和预备三种智商的规模正在袪除，最终指向一个统一的宇宙模子：既能生成画面，又能进行物理诡计，还能自主有谋划

李飞飞用一个杯子的例子来讲明这个不雅点。一个模子如若确切会通杯子怎样放在桌面上，就能同期作念到三件事：从随性角度渲染这个杯子，模拟它被推倒的经过，并预备一只手去将它捡起。

而这三类智商，是团结种底层会通的三个不同投影，亦然一个完好的会通在不同场景下的不同输出。

实践进展也曾出现。李飞飞在文中提到了来自不同机器东谈主实验室的连络，连络标明，预测验的视频渲染器不错算作聚首宇宙展望与举止展望的主干集中，意味着团结个模子既能"想象"接下来发生什么，又能"决定"接下来作念什么，从而在渲染器与预备器之间架起了一座桥梁。

她进一步指出，每一层都在从被迫输出走向交互系统。渲染器正在变得可由举止调治，不再是单向的"输入笔墨、输出画面"，而是不错字据用户的交互及时疗养生成内容。模拟器生成的宇宙正在变得更可控和可剪辑，用户不再只是被迫地不雅看模拟场景，还不错介入和修改。预备器则从单纯的"作念出反应"走向"三念念尔后行"，梗概进行更长链条的推演和预备。

这些趋势的逻辑至极是一个统一的宇宙模子：一个既能渲染相片级真实视图、又能产生物理精确结构、还能预备举止序列的通用大模子，并可字据下流用户的需求解放切换输出模态。届时，"渲染器""模拟器""预备器"这些分类标签自己将变得不再要紧，因为它们只是团结个模子的不同用法。

天然，这个主见还远未完了。数据图谱仍然严重失衡，过度追求视觉好意思感，可能糟跶掉机器东谈主或高保真模拟所需的物理精确度。如安在单一架构中长入这些突破，是面前宇宙模子连络最中枢的绽开问题。

结语：空间智能的漫长曲线

著述扫尾，李飞飞回到了一个从上世纪末延续于今的判断：

亦然通盘 AI 领域一直在押注团结个判断：一个有余丰富的宇宙模子，等于一个智能体去不雅察宇宙、建造宇宙并踏进其中取舍举止所需要的一切。

而今天，这个判断也曾出现交融的趋势。

渲染、模拟、预备，三条本来各自孤苦的连络门路呈现出另外一面。跟着三者规模的透顶坍缩，它们将共同重塑一个更广泛的命题：机器智能与它所栖息的物理宇宙之间的干系。

"言语赋予了机器驳斥这个宇宙的智商，"李飞飞在文末写谈，"而宇宙模子，将是机器最终用来会通、想象、推理并与这个宇宙进行交互的神志。"

金鹿特约编译对本文亦有孝敬AG真人国际(中国)官方网站

上一篇：上一篇：AG真人国际(中国)官方网站海角归来：一张旧船票，载不动满船芳华

下一篇：下一篇：AG真人国际(中国)官方网站法拉利首款纯电车型Luce遭群嘲，马自达、日产也来玩梗辱弄

关于AG

AG真人国际(中国)官方网站 不是什么都叫“宇宙模子”，李飞飞给出新界说

AG真人国际(中国)官方网站不是什么都叫“宇宙模子”，李飞飞给出新界说