关于AG

关于AG

AG真人国际(中国)官方网站 不是什么都叫“宇宙模子”,李飞飞给出新界说

发布日期:2026-06-05 08:54 来源:未知 作者:admin 浏览次数:

斯坦福大学 AI 科学家、World Labs 首创东谈主李飞飞。图片经由 AI 处理  

文丨谢瑞瑞

剪辑丨徐青阳

"宇宙模子"是畴昔两年 AI 领域最常被说起的看法之一,但它的含义正在变得越来越笼统。

2026世界杯开运(中国)官方平台

视频生成模子、言语模子,以致连物理引擎都能自称是宇宙模子。

斯坦福大学 AI 科学家、World Labs 首创东谈主李飞飞于 6 月 4 日撰文,有益修起这种衰退。她开篇便给出判断:宇宙模子是面前 AI 领域最要紧、也最被花费的术语之一。

她在文中写谈,连古希腊东谈主都没给"宇宙"下过一个统一、公认的界说。"宇宙"从来不是一个具体的事物,今天,AI 也袭取了雷同的问题——宇宙模子的规模在那处?

李飞飞的料理念念路很明确:先分清宇宙模子的三个中枢功能——渲染、模拟、预备。

01 会通宇宙模子的钥匙,是一张旧图

在伸开解说之前,李飞飞先纪念了一张在强化学习领域使用了几十年的框架图:部分可不雅测马尔可夫有谋划经过(Partially Observable Markov Decision Process,POMDP)。这个框架的称呼很复杂,但逻辑却简明。

李飞飞将面前的宇宙模子系统分为三类,区别是渲染器、模拟器以及预备器

它描述的是一个轮回:智能体取舍举止,举止编削宇宙的状态,智能体从环境中取得不雅测值,再依据不雅测取舍下一步举止。轮回不息进行。

文中的"状态",指的是物理学和机器东谈主学中的看法:在某个时期对宇宙气象的完好描述,涵盖每一个物体、每一个位置、每一组速率和每一项属性,对身处其中的任何智能体而言,恒久无法被都备平直感知。咱们能得到的,只是对现实的部分不雅测。

李飞飞进一步指出,这个由"智能体—举止—状态—不雅测—回到智能体"组成的闭环,赋予了当代宇宙模子确切的时期内核。

"宇宙模子"看法,最早不错追忆到 1943 年,由情态学家肯尼斯 · 克雷克(Kenneth Craik)在 1943 年忽视,即大脑通过运行现实的"小限制模子"来进行推理。到了 20 世纪 80 年代末、90 年代初,这个看法被引入神经集中连络。而今天,通盘被称为宇宙模子的事物,实践上都是团结个轮回在不同方进取的投影,每一类只输出轮回中的一个片断。

02 三类宇宙模子:渲染器、模拟器与预备器  

李飞飞以为,面前通盘自称宇宙模子的系统可分为三类:渲染器、模拟器和预备器。

第一类宇宙模子是渲染器。它的输出是供东谈主眼不雅看的像素,中枢评臆想划是视觉传神度。

渲染器主要崇敬生成视觉画面,最主要的侦察范例是传神度

能将文本辅导鼎新为电影级航拍镜头的视频生成模子属于这一类,谷歌的 Genie 3、World Labs 自研的 RTFM 等交互式生成系统也在此列。这类模子对三维结构莫得显式会通,它们生成的是不雅众"会看到什么",而不是"现实自己是什么"。

李飞飞在文中举了一个例子:航拍镜头中的建筑从上方看可能白玉无瑕,但如若试图驱车穿过下方的城市,画面就会分化判辨。原因很简便,渲染器的协议隧谈是视觉上的,它并不合画面背后的物理结构承担任何遭殃。

渲染器是面前买卖落地最锻真金不怕火的一类宇宙模子。谷歌的 Nano Banana 也曾将渲染级别的图像生成智商请托到数亿用户手中。

但它的天花板雷同了了——渲染器优化的是视觉合感性,而非物理准确性。它的输出令东谈主传颂,但不可被信托去想象建筑或测验机器东谈主。李飞飞对此总结谈:渲染器的输出天然璀璨,但你无法信任它们去承担那些与现实宇宙紧密攀附的任务。

第二类宇宙模子是模拟器。它输出的不是像素,而是状态,是一种在几何、物理和能源学层面高度保确凿宇宙表征。

模拟器的责任是构建恰当物理规矩的三维结构

模拟器的协议是结构性的:几何须须经得起注视,物理必须尊重客不雅规矩,能源学推崇必须恰当现实不竭。

它同期就业于两类受众:一类是东谈主类专科东谈主士,包括建筑师、想象师、电影制作主谈主和游戏拓荒者;另一类是诡计机步调,包括强化学习智能体、机器东谈主欺压器和自动驾驶汽车,它们将模拟器算作测验场,测试那些在现实中过于危境或崇高的场景。

李飞飞在文中有这么一段解说:如若说言语是对宇宙的一种轮廓描述,像素是对宇宙的一种视觉投影,那么几何、物理和能源学才是宇宙的本来容貌。模拟器必须缔造在这个层面之上。

她例如说,模拟器生成的几何结构和物理规矩就像一副骨骼——渲染器所需要的视觉外不雅、预备器所依赖的举止成果,都是从这副骨骼上滋长出来的。

这意味着,一个精明模拟的模子,不错将其会通鼎新为供东谈主不雅看的像素,也不错鼎新为供具身智能体使用的举止展望。而一个只是精明渲染或只是精明预备的模子,则作念不到这少量。这是模拟器与其他两类在智商上的实践互异。

第三类宇宙模子是预备器,输出是举止。给定一个不雅测值和一个主见,预备器需要回答的中枢问题是:智能体下一步应该作念什么。

预备器的责任是给智能体下达举止指示

在很多方面,这正巧是渲染器的逆向经过。渲染器以举止为输入并产生不雅测值,预备器则以不雅测值为输入并产生举止,从而完成"感知—举止"的闭环。

视觉 - 言语 - 动作模子、基于模子的系统,以及新近兴起的宇宙动作模子,实践上都属于预备器的尝试。这些系统旨在让机器东谈主在非结构化宇宙中自主决定下一步动作,平直输出一个可实践的有谋划。

这是最受关怀的新兴主见,与机器东谈主学习领域紧密络续。畴昔两年,种种机器东谈主演示视常常频激勉关怀:机械臂天真握取物体,双足机器东谈主在复杂地形上行走,机器东谈主在桌面上完成艰深操作等。

但李飞飞在文中指出,这些演示简直沿途局限在严格受控的实验室环境内,AG真人国际中国官网登录入口物体种类有限,任务周期很短。莫得任何一个系统在真实宇宙部署所需的复杂性、多变性或持久性方面得到过考据。

尽管时期尚未锻真金不怕火,买卖层面的押注却已开动。一批资金浑朴的新玩家正竞相推出通用预备系统。另一边,大型基础设施巨头则已搭建起重大的模拟平台,能处理从物理诡计到环境生成的多样任务,现在正把预备智商算作新功能加进去。

03 模拟器被低估了  

在渲染、模拟、预备这三个类别中,模拟器取得的大师关怀最少,但它却是三者中影响最深入的一个。她的这篇著述,恰是为了料理模拟器在关怀度上的不合称。

买卖层面的想象空间雷同可不雅。李飞飞在著述中平直说起英伟达的 Omniverse 平台,它所对准的工场、仓库、供应链和数字孪生领域,潜在阛阓限制越过一万亿好意思元。机器东谈主测验、自动驾驶测试、建筑可视化、工程想象和药物研发等等,都依赖于模拟阵势的时期智商。

但模拟器靠近的挑战也最为严峻。

领先是数据问题:包含显式几何、材料属性和物理标注的三维数据,远比渲染器测验所依赖的互联网视频稀缺得多,出入以数目级计。互联网上有无穷无限的视频素材不错用来测验渲染器,但带有精确物理属性的 3D 钞票却极其有限。

其次是耐久存在的"模拟与现实差距"。无论模拟作念得何等艰深,编造环境中的测试拆伙迁徙到真实宇宙时,总会产生偏差。这个问题在机器东谈主学和自动驾驶领域也曾被反复盘考,于今莫得都备料理。

此外,生成式模拟器还引入了新的风险。AI 生成的几何体看起来可能正确,但可能包含自相交或失误比例,一朝跑起物理模拟,就会产生无理的拆伙。

临了是诡计资本的问题。在大限制多物理场景模拟中,刚体、可变形物体、流体和布料互相交汇,其诡计资本比单一领域的模拟跨越太多。这意味着,即使有了有余的数据和模子,运行这些模拟自己亦然一项崇高的工程。

李飞飞创办的 World Labs 推出了 Marble 系统,这是朝"统一模拟"迈出的第一步。它采纳文本、图像、视频或空间草图等输入,生成可交互的 3D 环境,同期输出两种拆伙:用于视觉呈现的高斯泼溅(Gaussian Splats),决定场景的视觉外不雅;用于物理诡计的碰撞网格(Collision Meshes),决定物体的空间规模与碰撞反馈。畴昔,视觉渲染和物理模拟是两套孤苦的系统,Marble 把它们整合进了团结个模子。

Marble 的出现让模拟器第一次同期兼顾视觉呈现与物理结构。但正如李飞飞所说,这只是一个开动。

04 三条界限,正在袪除  

李飞飞的另一项中枢判断是:渲染、模拟、预备这三个类别,正在开动互相交融。

鼓吹这种交融的是一个共鸣——渲染一个宇宙、模拟一个宇宙以及在阿谁宇宙中取舍举止所需要的常识,在很猛进程上是通用的。

渲染、模拟和预备三种智商的规模正在袪除,最终指向一个统一的宇宙模子:既能生成画面,又能进行物理诡计,还能自主有谋划

李飞飞用一个杯子的例子来讲明这个不雅点。一个模子如若确切会通杯子怎样放在桌面上,就能同期作念到三件事:从随性角度渲染这个杯子,模拟它被推倒的经过,并预备一只手去将它捡起。

而这三类智商,是团结种底层会通的三个不同投影,亦然一个完好的会通在不同场景下的不同输出。

实践进展也曾出现。李飞飞在文中提到了来自不同机器东谈主实验室的连络,连络标明,预测验的视频渲染器不错算作聚首宇宙展望与举止展望的主干集中,意味着团结个模子既能"想象"接下来发生什么,又能"决定"接下来作念什么,从而在渲染器与预备器之间架起了一座桥梁。

她进一步指出,每一层都在从被迫输出走向交互系统。渲染器正在变得可由举止调治,不再是单向的"输入笔墨、输出画面",而是不错字据用户的交互及时疗养生成内容。模拟器生成的宇宙正在变得更可控和可剪辑,用户不再只是被迫地不雅看模拟场景,还不错介入和修改。 预备器则从单纯的"作念出反应"走向"三念念尔后行",梗概进行更长链条的推演和预备。

这些趋势的逻辑至极是一个统一的宇宙模子:一个既能渲染相片级真实视图、又能产生物理精确结构、还能预备举止序列的通用大模子,并可字据下流用户的需求解放切换输出模态。届时,"渲染器""模拟器""预备器"这些分类标签自己将变得不再要紧,因为它们只是团结个模子的不同用法。

天然,这个主见还远未完了。数据图谱仍然严重失衡,过度追求视觉好意思感,可能糟跶掉机器东谈主或高保真模拟所需的物理精确度。如安在单一架构中长入这些突破,是面前宇宙模子连络最中枢的绽开问题。

结语:空间智能的漫长曲线  

著述扫尾,李飞飞回到了一个从上世纪末延续于今的判断:

亦然通盘 AI 领域一直在押注团结个判断:一个有余丰富的宇宙模子,等于一个智能体去不雅察宇宙、建造宇宙并踏进其中取舍举止所需要的一切。

而今天,这个判断也曾出现交融的趋势。

渲染、模拟、预备,三条本来各自孤苦的连络门路呈现出另外一面。跟着三者规模的透顶坍缩,它们将共同重塑一个更广泛的命题:机器智能与它所栖息的物理宇宙之间的干系。

"言语赋予了机器驳斥这个宇宙的智商,"李飞飞在文末写谈,"而宇宙模子,将是机器最终用来会通、想象、推理并与这个宇宙进行交互的神志。"

金鹿特约编译对本文亦有孝敬AG真人国际(中国)官方网站