专访智源王仲远：世界模型正在加速AI进入物理世界，这是历史性的转折点|算法|宇宙|邰智源|神经网络

📰 谷德专业资讯网 ⏰ 2026-06-17 15:48 👁 35490 阅读

界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪

“我们已经没有纯语言模型的科研了，多模态是过去两年的重点，而未来则是世界基座模型。”智源研究院院长王仲远表示，AI进入了物理世界，而这是历史性的转折点。

坐落在五道口的北京智源人工智能研究院（BAAI），被海淀区多所顶尖高校环绕。自AI大模型成为现象级热点以来，这里已经成为除创业公司外国内最具代表性的科研机构。

它一方面不断产出重要成果，从2021年悟道系列语言大模型，到2025年悟界系列多模态模型悟界·Emu3.5；另一方面，这里也走出了智谱AI、月之暗面、面壁智能、银河通用等头部创业团队，前者目前已完成IPO且市值高企。

这家科研机构仍在延续新一轮的技术开荒任务。2026智源大会，智源研究院正式发布了世界模型领域的研究成果悟界·Physis-v0.1和悟界·RoboBrain Orca。

悟界·Physis-v0.1定位通用世界基座模型，目的在于搭建AI物理感知与推演的底层技术体系。在以往部分世界模型垂类应用场景中，模型存在不懂真实物理规则、物理推演结果可信度低、长程时序记忆缺失的短板，悟界·Physis-v0.1希望能够以通用基座能力实现全场景物理交互、感知与决策的统一，从根本上提升AI物理推理的真实性与可靠性。

悟界·RoboBrain Orca是以下一个物理状态预测为核心的具身大脑，具备统一表征、因果推演、模态解码三大核心能力，从想、看、动三个维度同时生成语言思考、视觉预测与动作决策，让具身智能机器人完整执行从认知、预测到行动，例如支撑其在物流场景、酒店服务场景等真实环境中的长期自主作业。

“人工智能正在经历从数字世界向物理世界的范式跃迁，其核心驱动力不再仅仅是预测下一个词元（Next Token Prediction），而是预测下一个物理状态（Next Physical State Prediction）。”王仲远说。

2023年，杨立昆（Yann LeCun）在智源大会上表示，仅靠语言模型无法抵达通用人工智能（AGI），首次大规模地向行业提及“世界模型”概念。

智源研究院随即在2024年明确“世界模型是AGI的必经之路”，并在此后两年里将其转化为以悟界·Emu3/悟界·3.5原生多模态世界模型为代表的研发路径，进而在2026年以悟界·Physis和悟界·RoboBrain Orca完成对世界模型的研发布局。

尽管之前视频生成模型曾被认为是世界模型的基础，但在智源的定义中，Sora等视频生成模型并不等同于世界模型；真正的世界模型必须能够理解并模拟真实物理规律，具备因果溯源能力和长时间序列的一致性，成为通往物理通用人工智能（Physical AGI）的基座。

因此，智源对世界模型给出了其清晰的分类定义，并且表示目前智源正在尝试第一条路线和第四条的路线结合，试图走出“第五条路线”：

第一类是以语言为中心的世界模型，包括VLM、VLA，模型在文本空间中预测下一个词，学到的是语言描述的世界，并不能理解背后的物理后果；

第二类是以像素为中心的世界模型，像Sora和Seedance等视频生成类模型，在视觉空间中学习视频或图像，学到的是像素描述的世界；

第三类是以三维结构为中心的世界模型，包括3D重建以及李飞飞团队的World Labs Marble模型，不过模型重建3D空间不等于理解世界，几何结构也不代表物理状态；

第四类是以视觉表征为中心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

对此中美发展态势，王仲远认为在世界模型赛道上，大家几乎站在同一起跑线上。在尝试理解物理规律、构建物理底座的阶段，中国科研机构已经开始提出原创性的技术路径。

面对当前被认为最棘手的数据匮乏问题，王仲远持乐观态度。他认为，视频数据中蕴含着巨大的未开发潜力，人类通过观察他人的动作即可获得物理常识，因此视频依然是Scale Up（规模化）的关键资源。此外，智源也在通过科研合作及真实场景采集，为即将到来的技术爆发做准备。

世界模型的未来到底在哪里？王仲远认为它最大的应用场景在于具身智能，但它的价值远不止于机器人。从微观的蛋白质结构演化到宏观的工业制造流程，只要涉及物理规律的模拟和预测，都可能是世界模型的落地范畴。

王仲远将现在的世界模型比作2012年左右的深度学习——从那一刻到ChatGPT带来的爆发，AI领域用了十年。

世界模型或许不会同样再经历一个十年了。王仲远判断称，随着视频数据的深度挖掘和物理仿真技术的迭代，这个周期可能会缩短至3-5年。

智源研究院院长王仲远（受访者供图） 以下为王仲远的采访实录，界面新闻略作编辑： 世界模型正在加速AI进入物理世界，这是历史性的转折点

界面新闻：智源世界模型团队是什么时候组建的？团队历史是怎样的？

王仲远：智源人工智能项目的布局一直按照既定战略推进。现在的世界模型团队由两部分组成：一部分是两三年前多模态模型和具身团队自然演进过来的；另一部分是今年年初正式立项组建的世界基座模型团队，因为当时多模态技术路线已经基本打通。

除了已有力量，我们今年年初启用了陈博远、王鹏伟这些青年科研人才。陈博远非常年轻，只有22岁，现在是智源行为世界模型中心的负责人，打破了此前悟界·Emu团队负责人的年龄纪录。智源一直强调青年挑大梁，不看头衔和资历。

界面新闻：你们世界模型团队的规模有多大？

王仲远：规模并不特别大，因为现阶段核心是技术研发。我们有过往的数据积累、成熟的工程团队，再加上天才型研究员的加入，研究阶段的资源是足够的。将来如果要转化成机器人或物理实验等实际产品，才会进一步扩大规模。

大语言模型的探索在两年前就已经完成并交给了企业（如智谱、月之暗面、面壁智能）。目前智源的主要精力都在世界模型上。我们和国际是站在同一起跑线上的。虽然智源的判断不一定全对，但我们尊重科研规律，也愿意承担科研失败的风险，这是智源作为科研机构的担当。

界面新闻：三年前智源就在谈世界模型，如果当时就“All In”，会不会发展得更快？

王仲远：任何事物的发展都有其规律。如果没有在多模态世界模型上的充分实践，没发现多模态的 Scaling Law，直接跳到世界模型是不现实的。

我们一直沿着自己的路径，从海量数据挖掘到多模态、全模态融合，再到具身智能的尝试。当我们发现具身智能无法解决泛化问题，发现AI For Life Science存在巨大空间时，世界模型的布局才水到渠成。

界面新闻：你们是如何确定这些研发模式并决定下注的？

王仲远：我们每年至少花两次以上的时间，由全院科研骨干集体探讨AI的演进，也会通过智源大会吸收专家意见。我们要形成自己的世界观，不被外界的热潮打乱节奏。

至于下注逻辑，我们认为人类大脑可以解码语言，也可以解码动作。如果能构建一个统一的表达空间来形成不同的输出，这种路径的Scaling Up潜力巨大。这是我们在技术上的基本判断。

界面新闻：内部有没有过激烈的辩论？

王仲远：肯定有。但作为非营利科研机构，开源开放是我们的底色。我们很愿意把一些还不成熟的思考分享出来，给行业一些启发。

界面新闻：世界模型是智源目前最重要的方向吗？

王仲远：智源现在的大方向都属于世界模型的大范畴，涵盖宏观与微观。我们已经没有纯大语言模型的科研了。多模态世界模型是过去两年的重点，未来则是世界基座模型。AI For Life Science（如蛋白质结构、类脑计算等）其实也是世界模型的一部分。最终你会发现大家殊途同归，都是在为物理世界建模。

界面新闻：现阶段探索世界模型的难度很高，智源的姿态是怎样的？

王仲远：智源的定位一直是引领。从大语言模型、多模态世界模型到具身智能、世界模型，我们一直很有信心。

虽然目前路线没收敛，但我们有自己的押注，也就是“潜空间”（Latent Space）。我们尝试将世界知识压缩到潜空间，通过不同的Decoder实现动作和状态的预测。这可能是对的，也可能是错的，但过两年结果会验证。

界面新闻：你提到“物理AGI”上限很高，具体指什么？今年的智源大会想为行业建立路线图，还是建立价值坐标系？

王仲远：物理AGI的上限源于物理世界的极高复杂度——包含时间、空间、物理规律以及人类创造的各种工具。

大语言模型虽然在文案、编程等数字世界创造了巨大价值，但在物理世界依然无法解决很多问题。物理世界才是人类真实的生产生活环境，其产值空间和待解决问题的难度都远超数字世界。

去年我们发布“悟界”系列模型，在行业内较早提出了从数字世界迈向物理世界的理念。

今年的智源大会，我们希望既能探讨技术路径，也明确人工智能进入物理世界这一历史性的转折点。

界面新闻：GPT在2023年爆发，世界模型现在到了什么位置？

王仲远：我一直觉得现在的世界模型和具身智能正处于2012年左右的深度学习兴起期。那时候神经网络虽然有了一定深度，但只能解决具体场景、具体任务。到了2018年Transformer发展成熟，再到2022年底ChatGPT发布，这中间走了十年。

现在的演化速度会更快，可能三五年就能完成数据积累。视频数据的潜力还没被充分挖掘，具身机器人也在边落地边积累人类交互数据，这些都会加速世界模型的爆发。

落地方面，技术会先行。就像深度学习理念在2006年提出，到2022年才迎来大爆发。我们现在进行各种路径探索，就是为了引领那个爆发点的到来。

“VLA是当下，世界模型是未来”

界面新闻：去年大家就在谈多模态融合，今年世界模型又成了浪潮，这两个概念具体有什么区别？

王仲远：早期的多模态模型（如悟界·Emu）主要融合文字、图像和视频，甚至没包含声音和动作。而真正进入物理世界，必须强调状态（State）和动作（Action），这是更强的物理约束。

很多行业把视频生成模型直接称为世界模型，但它们无法解决真实物理世界的问题。比如视频生成可以拍出“猪在天上飞”，但在物理世界这不存在。如果模型无法区分虚实，装在机器人大脑里，它可能会误以为自己是钢铁侠，产生严重后果。

所以，智源的世界模型是面向真实物理世界的，这既是多模态的延续，也是全新的扩展。

界面新闻：现在世界模型流派很多，包括空间智能、JEPA、扩散模型等。智源跟国内外这些主流路线有什么区别？

王仲远：目前世界模型主要有四种技术路线：

第一类是以语言为中心的世界模型，包括VLM、VLA，模型在文本空间中预测下一个词，学到的是语言描述的世界，并不能理解背后的物理后果；

第二类是以像素为中心的世界模型，像Sora和Seedance等视频生成类模型，在视觉空间中学习视频或图像，学到的是像素描述的世界；

第四类是以视觉表征为中心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

智源更认同第四种路径，并尝试将其与语言模型融合，探索第五条路线。我虽然是视觉出身，强调视觉信号的重要性，但也认为语言模型是推理和决策的关键。世界模型不只是仿真器，更应是辅助人类规划决策的工具。此前我们的悟界·Emu3.5就具备这种多模态与世界模型的双重属性。

图片来源：智源研究院

界面新闻：目前世界模型还处于非常早期，需要突破的技术难点是什么？

王仲远：首先是多模态融合中如何加入物理规律。比如一瓶水快掉地上了，盖没盖盖子会直接影响后续动作，人类天生能预判，但怎么教给模型？

其次是长时间序列的一致性。现在的视频生成模型即便能做长视频，但逻辑往往不符合物理规律。比如镜头移开再回来，旁边的时钟走时是否准确？

最后是动作的引入。虽然最近具身智能和AI硬件在大量采集真实数据，但这还远远不够。就像大语言模型当年依赖互联网海量数据一样，世界模型也需要足够充足的真实物理数据才能迎来爆发。

界面新闻：世界模型未来比拼的点位在哪里？什么因素决定了最终的胜利？

王仲远：现阶段大家都叫“世界模型”，但很多只是工具或解决特定场景的方案，并不是我们要做的“通用世界基座模型”。目前连通用世界基座模型的定义都没有达成共识，所以我们对走出自己的路非常有信心。如果连名词定义都没统一，其实是没法直接比较的。

界面新闻：什么因素Ready以后，这个领域会开始收敛？

王仲远：需要有一个系统或产品来证明：它具备真实的物理可验证性、长时序的一致性，以及因果逻辑推断能力。并且，它能作为一个基座，通过微调应用到各种不同的场景中。

界面新闻：关于世界模型和VLA（视觉-语言-动作）的争议，世界模型是具身智能的必经之路，还是可以和VLA协同？

王仲远：VLA是当下，世界模型是未来。

VLA现在很有用，能让机器人在特定场景（比如分拣包裹）快速落地。但它的局限性在于模型较大、响应速度的Latency（延迟）较高，且难以解决泛化和复杂的空间物理推理。

十年后，我们可能会有更顺畅的应用模型，但要真正解决长程任务和物理规律理解，世界模型是必须跨过去的坎。

界面新闻：很多视频模型公司都在改口说自己做世界模型，语境很笼统，你怎么看待这种变化？

王仲远：这是好事情。行业形成共识，意味着人才、资本和技术方案会大量涌入，这客观上促进了技术的演进。虽然现在有至少四种技术路线，大家都在刷榜或者各执一词，导致认知有些混乱，但这符合客观发展规律。

我们可以参考大语言模型的发展。因为主流路径还没统一，接下来很长一段时间大家会各说各的。但智源想得很清楚：我们要的是具备泛化能力、能解决多种下游任务的基座模型，而不是单纯的视频生成。

从第一性原理来看，人类不需要像视频生成模型那样在脑中产生高精度画面，我们闭上眼能预判未来状态即可。

界面新闻：纯粹的视频生成能否绕过物理实体交互，自发涌现出因果推理能力？

王仲远：关于逻辑，大语言模型是“Next Token Prediction”（下一词元预测），而世界模型的核心是“Next Physical State Prediction”（下一物理状态预测）。这个“状态”包含语言、动作、时空等全模态信息。仅仅靠VLM（视觉语言模型）是不够的，因为它没有Action（动作），甚至声音信号的作用也不清晰。

目前很多具身模型仍是被动执行指令。我们认为进入物理世界的人工智能必须具备推理和决策能力，能指挥Agent执行动作并自我评估。这个基座模型的上限很高，要解决的问题也非常多。

界面新闻：大模型发展到今天并没真正理解人类思想，只是在做预测。你认为未来的世界模型能理解规律本身，还是依然只是在做预测？

王仲远：世界模型是“下一物理状态预测”。这种状态包含文字、图像、声音、动作等，比语言模型更全面。

这种预测方式能否产生类似人类的智能？我认为它会呈现出这种智能。至于它叫不叫“物理 AGI”，到时候一定会有争论。智源的使命不是争论定义，而是利用这种能力解决问题，让社会变得更好。

界面新闻：到了世界模型时代，已有的基座模型厂商有没有可能下场？这种全新形式的壁垒在哪里？

王仲远：永远不能排除人工智能和互联网企业进入世界模型，包括很多车企也都在进场。行业已经有了共识：这是未来，这是方向。

历史证明，每个新时代都会诞生伟大的新企业。虽然大公司都在做大模型，但智谱这类基模厂商依然成长起来了。

不过，大语言模型已经有了闭环的商业模式，现有的企业有生存和盈利的目标，不太可能像智源这样纯粹地去探索可能失败的新方向。智源需要担起这个责任：去开创、去突破。

科研的魅力就在于我们可能开荒成功，也可能过两年发现当时想错了，这都是正常的。

界面新闻：在大语言模型上，中美差距被认为有6到12个月，世界模型呢？

王仲远：我觉得没有差距，大家站在同一起跑线上。这是全球最前沿的探索，我们有优秀的科研人员和过往的认知积累，有信心共同开启下一个 AI 时代。

界面新闻：早期的“悟道”模型跟国外确实有代差，这几年一直在追赶。世界模型的重要意义不亚于大语言模型，从国内目前的资源和水平来看，这个赛场的现状如何？

王仲远：我们肯定希望引领。过去几年，在大语言模型和AI Coding领域，我们确实是在跟随。但到了多模态阶段，智源已经开始提出独立且原创的技术路径，并得到了国际认可。

在世界模型上，我们有了自己的定义和技术信仰。这证明了中国在人工智能的前沿领域依然在尝试引领。

“数据是匮乏的，但并不阻碍技术迭代”

界面新闻：数据是目前的卡点，你认为哪部分数据最重要？最终的数据配比应该是怎样的？

王仲远：长期看，真实世界数据依然是散落的孤岛，非常缺乏。但从第一性原理来看，视频数据仍然是目前最容易Scale Up、且未被充分挖掘的资源。

举个例子：两岁的小女孩看短视频里的小姐姐吃东西，就能学会怎么拆糖果、串蓝莓。视频极大地加速了人类脑中世界模型的形成。所以视频数据依然极度重要。

此外，我们的悟界·Physis模型也在加入大量真实物理数据和异构感知数据。世界模型未来要解决的，就是具身智能模型目前缺乏泛化性、不具备自我推理的痛点。

图片来源：智源研究院

界面新闻：真实物理数据边界非常宽泛，如果你们要获取这部分数据，切入点是什么？

王仲远：坦白说，我们目前也在尝试多条路：比如和中科院合作获取真实的数据；内部也在讨论是否开发轻量级的数采设备。随着AI硬件的普及，这类数据会自然增长。这都是有待探索的前沿问题。

界面新闻：现阶段世界模型在数据采集上还有哪些困难？

王仲远：真实物理数据非常复杂。一个房间的视觉信号、手势、声音、动作轨迹，以及长期的 Context（上下文记忆），这些数据采集成本很高。我们现在会雇人进入真实的酒店、家庭，通过便携式设备采集数据。

我们希望世界模型最终具备“涌现”和“泛化”能力。并不是所有能力都靠死记硬背采集来的数据，而是通过足够多的训练，让模型能对真实物理世界进行合理的演进推理。这样它就能解决没见过的问题。

界面新闻：数据的质量和维度该如何判断？对模型性能影响大吗？

王仲远：影响非常大。目前的技术路径是数据驱动的，数据的质量和配比直接决定模型能力。

怎样判断数据好坏？目前没有恒定的公式，更多靠天才研究员的经验总结和直觉，这也是核心竞争力。最终的验证标准很简单：看它部署在机器人上后，能否实现训练数据之外的泛化；或者在科学实验中，能否给出合理正确的推理。

界面新闻：既然目前缺乏真实物理数据，能否多用一些AI仿真的数据来补充？

王仲远：行业内一直有关于“仿真数据”和“互联网数据”的争论。仿真数据是人类构造的，精准度本身不够，能否基于“不精准的数据”构建出“更厉害的模型”？我对此持保留意见。

仿真数据确实能弥补真实数据采集的不足，但它更像大模型训练中的一种配比。未来我们会把互联网数据、仿真数据和各种科学数据混合使用，共同训练世界基座模型。

界面新闻：如果数据问题没解决，世界模型可能只是局部有效的，会影响未来它落地后的应用场景和效果吗？

王仲远：虽然现在我们依然觉得数据是匮乏的，但并不阻碍整个技术的迭代和发展。我们认为视频行业仍有潜力待挖。具体的应用场景，具身智能和物理仿真引擎是核心。

虽然具身智能目前还在解决工厂分拣等具体场景，但这种沿途下蛋的过程也在积累数据。我们不能等到数据完全准备好才去探索路径，而世界模型目前看来是解决具身智能核心技术瓶颈的可行方案。

界面新闻：之前大语言模型的基础设施（AI Infrastructure）能在多大程度上复用给世界模型？

王仲远： 我个人认为基本都可以复用。

我们去年的悟界·Emu3.5就强调采用和大模型一样的架构，证明它是可以Scale Up（规模化）的。训练框架、数据工具链、算力设施，很大程度上都能复用。

虽然世界模型在处理Action（动作）和State（状态）采集上会有新挑战，但从物理实现层面看，声音、图像、动作轨迹这些模态已经在具身领域跑通了。我对基础设施的复用性非常乐观。

界面新闻：支撑世界模型训练的核心还是算力吗？

王仲远：算力肯定需要，但需求程度取决于技术路线。

比如悟界·Physis模型不包含语言体系，追求极致压缩，它对算力的需求是相对可控的。而走大语言模型或海量视频生成路径的，就需要庞大的算力。虽然路径没收敛，但计算能力的提升一定会促进各类世界模型的发展。

界面新闻：世界模型往后走，是主要靠 Scaling Law（规模法则）越做越好，还是靠天才研究员的算法突破？

王仲远：两者都要。人工智能的历史已经多次验证了Scaling Law 的威力：从上世纪四五十年代几个参数的晶体管，到八十年代BP算法下的几百个参数，再到2006年深度学习普及后的千万级参数，直到现在的千亿、万亿参数大模型。这一直伴随着更强的数据、更好的算法和更强大的模型。

如果未来GPU算力持续提升、多模态数据量不断加大，世界模型的泛化能力一定会更强。当然，我们也乐见更经济有效的方案。人类大脑功耗只有10-20瓦，吃点蔬菜就能产生极强的智能，这说明一定存在更高效的路径。

智源也在布局“类脑计算”和“AI For Life Science”，希望参考大脑神经网络结构，设计出更高效的网络。这块目前还处于早期。

“具身智能是目前最大的应用场景”

界面新闻：你们的资料里说悟界·模型覆盖了50个场景，为什么选择这些场景？

王仲远：大家不用过度在乎这个具体的数字。这50个场景的意义在于代表基座模型能应用到各类下游任务中，这才是基座模型的核心价值。

界面新闻：如何衡量模型对物理世界理解的水平，有设定的“毕业”节点吗？

王仲远：复杂和长程目前很难标准化定义。之所以强调这两点，是因为现有的物理应用模型缺乏泛化性。一旦超出特定的时序，推理错误和幻觉就会大大增加。世界模型要解决的，就是通过全模态能力，让模型在长程推理中依然能保持对空间物理规律的准确理解。

界面新闻：现在的游戏或元宇宙DEMO，提供照片就能生成几分钟可探索的世界。世界模型往后的发展，是不是更接近这种感觉，而不是传统的虚幻引擎？

王仲远：你提到的是世界模型四大分类中的一类，即“3D世界生成”。这类技术更多应用于虚拟世界、元宇宙和游戏。虽然它有价值，但不是智源目前聚焦的核心。

我们的悟界·Physis模型应用场景之一是物理仿真。现在的虚幻引擎等工具是基于人类总结的物理公式，虽然画面很逼真，但肉眼依然能看出那是“假”的。人类总结的公式总是不完美的，仿真引擎的发展也因此遇到了瓶颈。

我们希望的世界模型是由数据驱动的。如果数据量足够大，它生成的物理模拟会远超人类经验构建的引擎。虽然这还处于理论假设阶段，但如果几年后世界模型的产品体验能超过现在的仿真引擎，大家会认同这是一个更好的方向。

界面新闻：你的意思是，世界模型以后可以自己推理出一些人类还没发现的物理规律？

王仲远：理论上具备这种潜力。就像大语言模型能辅助科学发现一样，虽然目前处理的是数字世界的文字和公式，但未来的世界基座模型上限更高，存在发现新规律的可能性。

界面新闻：除了具身智能，世界模型还有哪些大的机会？

王仲远：具身智能是我们的初衷，但科学智能（如微观世界的演化）也是重头戏。

未来几年，各行各业可能都会冠以世界模型之名。我们的目标是做一个面向真实物理世界的基座模型，帮助AI更好地感知、理解、推理和决策。它的应用场景依然会回归到现实中，比如医疗、工业、物流、工厂。正是因为现在的模型解决不了这些物理场景的复杂问题，我们才需要研发世界基座模型。

界面新闻：有报告说世界模型可以降低数据获取成本，缩短70%的研发周期，您怎么看？

王仲远：很多人认为世界模型只是用来生成数据的，我们不否认视频生成在自动驾驶、具身场景里的数据价值，但这不应是主要应用。

世界模型更强调的是“基于状态做出规划和决策”。它有点像《奇异博士》，能预见各种可能的未来，并在当下选择那个最优的决策。

界面新闻：世界模型的终局一定是在具身智能实体中验证吗？脱离具身智能是否有真正的世界模型？

王仲远：智源探讨的世界基座模型，核心是面向物理世界。理想的基座模型不仅能解决具身智能的问题，还能用于自动驾驶、工业仿真、科学实验等广泛场景。

具身智能确实是目前最大的应用场景，因为现在的具身智能大多缺乏物理常识和泛化能力，这正是我们布局世界模型的原因。

界面新闻：那你们最终的目标是什么？

王仲远：目标是用于产业，为人类和社会做有价值的科研。

我们和学校的区别在于：我们不以论文为目标，而是要看到价值。这种价值可以通过无偿开放成果来体现。过去两年我们开源了200多款模型，全球总下载量累计超过10亿次，这也是我们对于产业的重大价值。

如果科研团队觉得成果需要更闭环地服务产业，也会有孵化公司的可能。

本文标签：科技 AI 医疗合作短视频人工智能

专访智源王仲远：世界模型正在加速AI进入物理世界，这是历史性的转折点|算法|宇宙|邰智源|神经网络

经济发展报告

2024全国两会

科技创新前沿

专访智源王仲远：世界模型正在加速AI进入物理世界，这是历史性的转折点|算法|宇宙|邰智源|神经网络

📚 相关阅读

经济发展报告

2024全国两会

科技创新前沿