专访智源王仲远:世界模型正在加速AI进入物理世界,这是历史性的转折点|算法|宇宙|邰智源|神经网络
界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪
“我们已经没有纯语言模型的科研了,多模态是过去两年的重点,而未来则是世界基座模型。”智源研究院院长王仲远表示,AI进入了物理世界,而这是历史性的转折点。
坐落在五道口的北京智源人工智能研究院(BAAI),被海淀区多所顶尖高校环绕。自AI大模型成为现象级热点以来,这里已经成为除创业公司外国内最具代表性的科研机构。
它一方面不断产出重要成果,从2021年悟道系列语言大模型,到2025年悟界系列多模态模型悟界·Emu3.5;另一方面,这里也走出了智谱AI、月之暗面、面壁智能、银河通用等头部创业团队,前者目前已完成IPO且市值高企。
这家科研机构仍在延续新一轮的技术开荒任务。2026智源大会,智源研究院正式发布了世界模型领域的研究成果悟界·Physis-v0.1和悟界·RoboBrain Orca。
悟界·Physis-v0.1定位通用世界基座模型,目的在于搭建AI物理感知与推演的底层技术体系。在以往部分世界模型垂类应用场景中,模型存在不懂真实物理规则、物理推演结果可信度低、长程时序记忆缺失的短板,悟界·Physis-v0.1希望能够以通用基座能力实现全场景物理交互、感知与决策的统一,从根本上提升AI物理推理的真实性与可靠性。
悟界·RoboBrain Orca是以下一个物理状态预测为核心的具身大脑,具备统一表征、因果推演、模态解码三大核心能力,从想、看、动三个维度同时生成语言思考、视觉预测与动作决策,让具身智能机器人完整执行从认知、预测到行动,例如支撑其在物流场景、酒店服务场景等真实环境中的长期自主作业。
“人工智能正在经历从数字世界向物理世界的范式跃迁,其核心驱动力不再仅仅是预测下一个词元(Next Token Prediction),而是预测下一个物理状态(Next Physical State Prediction)。”王仲远说。
2023年,杨立昆(Yann LeCun)在智源大会上表示,仅靠语言模型无法抵达通用人工智能(AGI),首次大规模地向行业提及“世界模型”概念。
智源研究院随即在2024年明确“世界模型是AGI的必经之路”,并在此后两年里将其转化为以悟界·Emu3/悟界·3.5原生多模态世界模型为代表的研发路径,进而在2026年以悟界·Physis和悟界·RoboBrain Orca完成对世界模型的研发布局。
尽管之前视频生成模型曾被认为是世界模型的基础,但在智源的定义中,Sora等视频生成模型并不等同于世界模型;真正的世界模型必须能够理解并模拟真实物理规律,具备因果溯源能力和长时间序列的一致性,成为通往物理通用人工智能(Physical AGI)的基座。
因此,智源对世界模型给出了其清晰的分类定义,并且表示目前智源正在尝试第一条路线和第四条的路线结合,试图走出“第五条路线”:
第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;
第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;
第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;
第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。
对此中美发展态势,王仲远认为在世界模型赛道上,大家几乎站在同一起跑线上。在尝试理解物理规律、构建物理底座的阶段,中国科研机构已经开始提出原创性的技术路径。
面对当前被认为最棘手的数据匮乏问题,王仲远持乐观态度。他认为,视频数据中蕴含着巨大的未开发潜力,人类通过观察他人的动作即可获得物理常识,因此视频依然是Scale Up(规模化)的关键资源。此外,智源也在通过科研合作及真实场景采集,为即将到来的技术爆发做准备。
世界模型的未来到底在哪里?王仲远认为它最大的应用场景在于具身智能,但它的价值远不止于机器人。从微观的蛋白质结构演化到宏观的工业制造流程,只要涉及物理规律的模拟和预测,都可能是世界模型的落地范畴。
王仲远将现在的世界模型比作2012年左右的深度学习——从那一刻到ChatGPT带来的爆发,AI领域用了十年。
世界模型或许不会同样再经历一个十年了。王仲远判断称,随着视频数据的深度挖掘和物理仿真技术的迭代,这个周期可能会缩短至3-5年。
![]()
智源研究院院长王仲远(受访者供图) 以下为王仲远的采访实录,界面新闻略作编辑: 世界模型正在加速AI进入物理世界,这是历史性的转折点
界面新闻:智源世界模型团队是什么时候组建的?团队历史是怎样的?
王仲远:智源人工智能项目的布局一直按照既定战略推进。现在的世界模型团队由两部分组成:一部分是两三年前多模态模型和具身团队自然演进过来的;另一部分是今年年初正式立项组建的世界基座模型团队,因为当时多模态技术路线已经基本打通。
除了已有力量,我们今年年初启用了陈博远、王鹏伟这些青年科研人才。陈博远非常年轻,只有22岁,现在是智源行为世界模型中心的负责人,打破了此前悟界·Emu团队负责人的年龄纪录。智源一直强调青年挑大梁,不看头衔和资历。
界面新闻:你们世界模型团队的规模有多大?
王仲远:规模并不特别大,因为现阶段核心是技术研发。我们有过往的数据积累、成熟的工程团队,再加上天才型研究员的加入,研究阶段的资源是足够的。将来如果要转化成机器人或物理实验等实际产品,才会进一步扩大规模。
大语言模型的探索在两年前就已经完成并交给了企业(如智谱、月之暗面、面壁智能)。目前智源的主要精力都在世界模型上。我们和国际是站在同一起跑线上的。虽然智源的判断不一定全对,但我们尊重科研规律,也愿意承担科研失败的风险,这是智源作为科研机构的担当。
界面新闻:三年前智源就在谈世界模型,如果当时就“All In”,会不会发展得更快?
王仲远:任何事物的发展都有其规律。如果没有在多模态世界模型上的充分实践,没发现多模态的 Scaling Law,直接跳到世界模型是不现实的。
我们一直沿着自己的路径,从海量数据挖掘到多模态、全模态融合,再到具身智能的尝试。当我们发现具身智能无法解决泛化问题,发现AI For Life Science存在巨大空间时,世界模型的布局才水到渠成。
界面新闻:你们是如何确定这些研发模式并决定下注的?
王仲远:我们每年至少花两次以上的时间,由全院科研骨干集体探讨AI的演进,也会通过智源大会吸收专家意见。我们要形成自己的世界观,不被外界的热潮打乱节奏。
至于下注逻辑,我们认为人类大脑可以解码语言,也可以解码动作。如果能构建一个统一的表达空间来形成不同的输出,这种路径的Scaling Up潜力巨大。这是我们在技术上的基本判断。
界面新闻:内部有没有过激烈的辩论?
王仲远:肯定有。但作为非营利科研机构,开源开放是我们的底色。我们很愿意把一些还不成熟的思考分享出来,给行业一些启发。
界面新闻:世界模型是智源目前最重要的方向吗?
王仲远:智源现在的大方向都属于世界模型的大范畴,涵盖宏观与微观。我们已经没有纯大语言模型的科研了。多模态世界模型是过去两年的重点,未来则是世界基座模型。AI For Life Science(如蛋白质结构、类脑计算等)其实也是世界模型的一部分。最终你会发现大家殊途同归,都是在为物理世界建模。
界面新闻:现阶段探索世界模型的难度很高,智源的姿态是怎样的?
王仲远:智源的定位一直是引领。从大语言模型、多模态世界模型到具身智能、世界模型,我们一直很有信心。
虽然目前路线没收敛,但我们有自己的押注,也就是“潜空间”(Latent Space)。我们尝试将世界知识压缩到潜空间,通过不同的Decoder实现动作和状态的预测。这可能是对的,也可能是错的,但过两年结果会验证。
界面新闻:你提到“物理AGI”上限很高,具体指什么?今年的智源大会想为行业建立路线图,还是建立价值坐标系?
王仲远:物理AGI的上限源于物理世界的极高复杂度——包含时间、空间、物理规律以及人类创造的各种工具。
大语言模型虽然在文案、编程等数字世界创造了巨大价值,但在物理世界依然无法解决很多问题。物理世界才是人类真实的生产生活环境,其产值空间和待解决问题的难度都远超数字世界。
去年我们发布“悟界”系列模型,在行业内较早提出了从数字世界迈向物理世界的理念。
今年的智源大会,我们希望既能探讨技术路径,也明确人工智能进入物理世界这一历史性的转折点。
界面新闻:GPT在2023年爆发,世界模型现在到了什么位置?
王仲远:我一直觉得现在的世界模型和具身智能正处于2012年左右的深度学习兴起期。那时候神经网络虽然有了一定深度,但只能解决具体场景、具体任务。到了2018年Transformer发展成熟,再到2022年底ChatGPT发布,这中间走了十年。
现在的演化速度会更快,可能三五年就能完成数据积累。视频数据的潜力还没被充分挖掘,具身机器人也在边落地边积累人类交互数据,这些都会加速世界模型的爆发。
落地方面,技术会先行。就像深度学习理念在2006年提出,到2022年才迎来大爆发。我们现在进行各种路径探索,就是为了引领那个爆发点的到来。
“VLA是当下,世界模型是未来”
界面新闻:去年大家就在谈多模态融合,今年世界模型又成了浪潮,这两个概念具体有什么区别?
王仲远:早期的多模态模型(如悟界·Emu)主要融合文字、图像和视频,甚至没包含声音和动作。而真正进入物理世界,必须强调状态(State)和动作(Action),这是更强的物理约束。
很多行业把视频生成模型直接称为世界模型,但它们无法解决真实物理世界的问题。比如视频生成可以拍出“猪在天上飞”,但在物理世界这不存在。如果模型无法区分虚实,装在机器人大脑里,它可能会误以为自己是钢铁侠,产生严重后果。
所以,智源的世界模型是面向真实物理世界的,这既是多模态的延续,也是全新的扩展。
界面新闻:现在世界模型流派很多,包括空间智能、JEPA、扩散模型等。智源跟国内外这些主流路线有什么区别?
王仲远:目前世界模型主要有四种技术路线:
第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;
第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;
第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;
第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。
智源更认同第四种路径,并尝试将其与语言模型融合,探索第五条路线。我虽然是视觉出身,强调视觉信号的重要性,但也认为语言模型是推理和决策的关键。世界模型不只是仿真器,更应是辅助人类规划决策的工具。此前我们的悟界·Emu3.5就具备这种多模态与世界模型的双重属性。
![]()
图片来源:智源研究院
界面新闻:目前世界模型还处于非常早期,需要突破的技术难点是什么?
王仲远:首先是多模态融合中如何加入物理规律。比如一瓶水快掉地上了,盖没盖盖子会直接影响后续动作,人类天生能预判,但怎么教给模型?
其次是长时间序列的一致性。现在的视频生成模型即便能做长视频,但逻辑往往不符合物理规律。比如镜头移开再回来,旁边的时钟走时是否准确?
最后是动作的引入。虽然最近具身智能和AI硬件在大量采集真实数据,但这还远远不够。就像大语言模型当年依赖互联网海量数据一样,世界模型也需要足够充足的真实物理数据才能迎来爆发。
界面新闻:世界模型未来比拼的点位在哪里?什么因素决定了最终的胜利?
王仲远:现阶段大家都叫“世界模型”,但很多只是工具或解决特定场景的方案,并不是我们要做的“通用世界基座模型”。目前连通用世界基座模型的定义都没有达成共识,所以我们对走出自己的路非常有信心。如果连名词定义都没统一,其实是没法直接比较的。
界面新闻:什么因素Ready以后,这个领域会开始收敛?
王仲远:需要有一个系统或产品来证明:它具备真实的物理可验证性、长时序的一致性,以及因果逻辑推断能力。并且,它能作为一个基座,通过微调应用到各种不同的场景中。
界面新闻:关于世界模型和VLA(视觉-语言-动作)的争议,世界模型是具身智能的必经之路,还是可以和VLA协同?
王仲远:VLA是当下,世界模型是未来。
VLA现在很有用,能让机器人在特定场景(比如分拣包裹)快速落地。但它的局限性在于模型较大、响应速度的Latency(延迟)较高,且难以解决泛化和复杂的空间物理推理。
十年后,我们可能会有更顺畅的应用模型,但要真正解决长程任务和物理规律理解,世界模型是必须跨过去的坎。
界面新闻:很多视频模型公司都在改口说自己做世界模型,语境很笼统,你怎么看待这种变化?
王仲远:这是好事情。行业形成共识,意味着人才、资本和技术方案会大量涌入,这客观上促进了技术的演进。虽然现在有至少四种技术路线,大家都在刷榜或者各执一词,导致认知有些混乱,但这符合客观发展规律。
我们可以参考大语言模型的发展。因为主流路径还没统一,接下来很长一段时间大家会各说各的。但智源想得很清楚:我们要的是具备泛化能力、能解决多种下游任务的基座模型,而不是单纯的视频生成。
从第一性原理来看,人类不需要像视频生成模型那样在脑中产生高精度画面,我们闭上眼能预判未来状态即可。
界面新闻:纯粹的视频生成能否绕过物理实体交互,自发涌现出因果推理能力?
王仲远:关于逻辑,大语言模型是“Next Token Prediction”(下一词元预测),而世界模型的核心是“Next Physical State Prediction”(下一物理状态预测)。这个“状态”包含语言、动作、时空等全模态信息。仅仅靠VLM(视觉语言模型)是不够的,因为它没有Action(动作),甚至声音信号的作用也不清晰。
目前很多具身模型仍是被动执行指令。我们认为进入物理世界的人工智能必须具备推理和决策能力,能指挥Agent执行动作并自我评估。这个基座模型的上限很高,要解决的问题也非常多。
界面新闻:大模型发展到今天并没真正理解人类思想,只是在做预测。你认为未来的世界模型能理解规律本身,还是依然只是在做预测?
王仲远:世界模型是“下一物理状态预测”。这种状态包含文字、图像、声音、动作等,比语言模型更全面。
这种预测方式能否产生类似人类的智能?我认为它会呈现出这种智能。至于它叫不叫“物理 AGI”,到时候一定会有争论。智源的使命不是争论定义,而是利用这种能力解决问题,让社会变得更好。
界面新闻:到了世界模型时代,已有的基座模型厂商有没有可能下场?这种全新形式的壁垒在哪里?
王仲远:永远不能排除人工智能和互联网企业进入世界模型,包括很多车企也都在进场。行业已经有了共识:这是未来,这是方向。
历史证明,每个新时代都会诞生伟大的新企业。虽然大公司都在做大模型,但智谱这类基模厂商依然成长起来了。
不过,大语言模型已经有了闭环的商业模式,现有的企业有生存和盈利的目标,不太可能像智源这样纯粹地去探索可能失败的新方向。智源需要担起这个责任:去开创、去突破。
科研的魅力就在于我们可能开荒成功,也可能过两年发现当时想错了,这都是正常的。
界面新闻:在大语言模型上,中美差距被认为有6到12个月,世界模型呢?
王仲远:我觉得没有差距,大家站在同一起跑线上。这是全球最前沿的探索,我们有优秀的科研人员和过往的认知积累,有信心共同开启下一个 AI 时代。
界面新闻:早期的“悟道”模型跟国外确实有代差,这几年一直在追赶。世界模型的重要意义不亚于大语言模型,从国内目前的资源和水平来看,这个赛场的现状如何?
王仲远:我们肯定希望引领。过去几年,在大语言模型和AI Coding领域,我们确实是在跟随。但到了多模态阶段,智源已经开始提出独立且原创的技术路径,并得到了国际认可。
在世界模型上,我们有了自己的定义和技术信仰。这证明了中国在人工智能的前沿领域依然在尝试引领。
“数据是匮乏的,但并不阻碍技术迭代”
界面新闻:数据是目前的卡点,你认为哪部分数据最重要?最终的数据配比应该是怎样的?
王仲远:长期看,真实世界数据依然是散落的孤岛,非常缺乏。但从第一性原理来看,视频数据仍然是目前最容易Scale Up、且未被充分挖掘的资源。
举个例子:两岁的小女孩看短视频里的小姐姐吃东西,就能学会怎么拆糖果、串蓝莓。视频极大地加速了人类脑中世界模型的形成。所以视频数据依然极度重要。
此外,我们的悟界·Physis模型也在加入大量真实物理数据和异构感知数据。世界模型未来要解决的,就是具身智能模型目前缺乏泛化性、不具备自我推理的痛点。
![]()
图片来源:智源研究院
界面新闻:真实物理数据边界非常宽泛,如果你们要获取这部分数据,切入点是什么?
王仲远:坦白说,我们目前也在尝试多条路:比如和中科院合作获取真实的数据;内部也在讨论是否开发轻量级的数采设备。随着AI硬件的普及,这类数据会自然增长。这都是有待探索的前沿问题。
界面新闻:现阶段世界模型在数据采集上还有哪些困难?
王仲远:真实物理数据非常复杂。一个房间的视觉信号、手势、声音、动作轨迹,以及长期的 Context(上下文记忆),这些数据采集成本很高。我们现在会雇人进入真实的酒店、家庭,通过便携式设备采集数据。
我们希望世界模型最终具备“涌现”和“泛化”能力。并不是所有能力都靠死记硬背采集来的数据,而是通过足够多的训练,让模型能对真实物理世界进行合理的演进推理。这样它就能解决没见过的问题。
界面新闻:数据的质量和维度该如何判断?对模型性能影响大吗?
王仲远:影响非常大。目前的技术路径是数据驱动的,数据的质量和配比直接决定模型能力。
怎样判断数据好坏?目前没有恒定的公式,更多靠天才研究员的经验总结和直觉,这也是核心竞争力。最终的验证标准很简单:看它部署在机器人上后,能否实现训练数据之外的泛化;或者在科学实验中,能否给出合理正确的推理。
界面新闻:既然目前缺乏真实物理数据,能否多用一些AI仿真的数据来补充?
王仲远:行业内一直有关于“仿真数据”和“互联网数据”的争论。仿真数据是人类构造的,精准度本身不够,能否基于“不精准的数据”构建出“更厉害的模型”?我对此持保留意见。
仿真数据确实能弥补真实数据采集的不足,但它更像大模型训练中的一种配比。未来我们会把互联网数据、仿真数据和各种科学数据混合使用,共同训练世界基座模型。
界面新闻:如果数据问题没解决,世界模型可能只是局部有效的,会影响未来它落地后的应用场景和效果吗?
王仲远:虽然现在我们依然觉得数据是匮乏的,但并不阻碍整个技术的迭代和发展。我们认为视频行业仍有潜力待挖。具体的应用场景,具身智能和物理仿真引擎是核心。
虽然具身智能目前还在解决工厂分拣等具体场景,但这种沿途下蛋的过程也在积累数据。我们不能等到数据完全准备好才去探索路径,而世界模型目前看来是解决具身智能核心技术瓶颈的可行方案。
界面新闻:之前大语言模型的基础设施(AI Infrastructure)能在多大程度上复用给世界模型?
王仲远: 我个人认为基本都可以复用。
我们去年的悟界·Emu3.5就强调采用和大模型一样的架构,证明它是可以Scale Up(规模化)的。训练框架、数据工具链、算力设施,很大程度上都能复用。
虽然世界模型在处理Action(动作)和State(状态)采集上会有新挑战,但从物理实现层面看,声音、图像、动作轨迹这些模态已经在具身领域跑通了。我对基础设施的复用性非常乐观。
界面新闻:支撑世界模型训练的核心还是算力吗?
王仲远:算力肯定需要,但需求程度取决于技术路线。
比如悟界·Physis模型不包含语言体系,追求极致压缩,它对算力的需求是相对可控的。而走大语言模型或海量视频生成路径的,就需要庞大的算力。虽然路径没收敛,但计算能力的提升一定会促进各类世界模型的发展。
界面新闻:世界模型往后走,是主要靠 Scaling Law(规模法则)越做越好,还是靠天才研究员的算法突破?
王仲远:两者都要。人工智能的历史已经多次验证了Scaling Law 的威力:从上世纪四五十年代几个参数的晶体管,到八十年代BP算法下的几百个参数,再到2006年深度学习普及后的千万级参数,直到现在的千亿、万亿参数大模型。这一直伴随着更强的数据、更好的算法和更强大的模型。
如果未来GPU算力持续提升、多模态数据量不断加大,世界模型的泛化能力一定会更强。当然,我们也乐见更经济有效的方案。人类大脑功耗只有10-20瓦,吃点蔬菜就能产生极强的智能,这说明一定存在更高效的路径。
智源也在布局“类脑计算”和“AI For Life Science”,希望参考大脑神经网络结构,设计出更高效的网络。这块目前还处于早期。
“具身智能是目前最大的应用场景”
界面新闻:你们的资料里说悟界·模型覆盖了50个场景,为什么选择这些场景?
王仲远:大家不用过度在乎这个具体的数字。这50个场景的意义在于代表基座模型能应用到各类下游任务中,这才是基座模型的核心价值。
界面新闻:如何衡量模型对物理世界理解的水平,有设定的“毕业”节点吗?
王仲远:复杂和长程目前很难标准化定义。之所以强调这两点,是因为现有的物理应用模型缺乏泛化性。一旦超出特定的时序,推理错误和幻觉就会大大增加。世界模型要解决的,就是通过全模态能力,让模型在长程推理中依然能保持对空间物理规律的准确理解。
界面新闻:现在的游戏或元宇宙DEMO,提供照片就能生成几分钟可探索的世界。世界模型往后的发展,是不是更接近这种感觉,而不是传统的虚幻引擎?
王仲远:你提到的是世界模型四大分类中的一类,即“3D世界生成”。这类技术更多应用于虚拟世界、元宇宙和游戏。虽然它有价值,但不是智源目前聚焦的核心。
我们的悟界·Physis模型应用场景之一是物理仿真。现在的虚幻引擎等工具是基于人类总结的物理公式,虽然画面很逼真,但肉眼依然能看出那是“假”的。人类总结的公式总是不完美的,仿真引擎的发展也因此遇到了瓶颈。
我们希望的世界模型是由数据驱动的。如果数据量足够大,它生成的物理模拟会远超人类经验构建的引擎。虽然这还处于理论假设阶段,但如果几年后世界模型的产品体验能超过现在的仿真引擎,大家会认同这是一个更好的方向。
界面新闻:你的意思是,世界模型以后可以自己推理出一些人类还没发现的物理规律?
王仲远:理论上具备这种潜力。就像大语言模型能辅助科学发现一样,虽然目前处理的是数字世界的文字和公式,但未来的世界基座模型上限更高,存在发现新规律的可能性。
界面新闻:除了具身智能,世界模型还有哪些大的机会?
王仲远:具身智能是我们的初衷,但科学智能(如微观世界的演化)也是重头戏。
未来几年,各行各业可能都会冠以世界模型之名。我们的目标是做一个面向真实物理世界的基座模型,帮助AI更好地感知、理解、推理和决策。它的应用场景依然会回归到现实中,比如医疗、工业、物流、工厂。正是因为现在的模型解决不了这些物理场景的复杂问题,我们才需要研发世界基座模型。
界面新闻:有报告说世界模型可以降低数据获取成本,缩短70%的研发周期,您怎么看?
王仲远:很多人认为世界模型只是用来生成数据的,我们不否认视频生成在自动驾驶、具身场景里的数据价值,但这不应是主要应用。
世界模型更强调的是“基于状态做出规划和决策”。它有点像《奇异博士》,能预见各种可能的未来,并在当下选择那个最优的决策。
界面新闻:世界模型的终局一定是在具身智能实体中验证吗?脱离具身智能是否有真正的世界模型?
王仲远:智源探讨的世界基座模型,核心是面向物理世界。理想的基座模型不仅能解决具身智能的问题,还能用于自动驾驶、工业仿真、科学实验等广泛场景。
具身智能确实是目前最大的应用场景,因为现在的具身智能大多缺乏物理常识和泛化能力,这正是我们布局世界模型的原因。
界面新闻:那你们最终的目标是什么?
王仲远:目标是用于产业,为人类和社会做有价值的科研。
我们和学校的区别在于:我们不以论文为目标,而是要看到价值。这种价值可以通过无偿开放成果来体现。过去两年我们开源了200多款模型,全球总下载量累计超过10亿次,这也是我们对于产业的重大价值。
如果科研团队觉得成果需要更闭环地服务产业,也会有孵化公司的可能。