首个开源世界模型，李飞飞点赞：视频变4D世界，探索可能吗？

摘要：点个 Star，开源项目地址：https:github.cominspatioinspatio-world 首个开源世界模型，李飞飞点赞：把视频直接变成一个可探索的 4D 世界这两天看到一个很炸的项目，叫 InSpatio-Wor

点个 Star，开源项目地址：https://github.com/inspatio/inspatio-world 首个开源世界模型，李飞飞点赞：把视频直接变成一个可探索的 4D 世界这两天看到一个很炸的项目，叫 InSpatio-World。一句话说清楚它在干嘛：把一段普通视频，直接变成一个可探索、可导航、可回溯的 4D 世界。这个点为什么值得聊。因为过去大多数视频模型，解决的是生成一段能看的内容。你看到的是画面、镜头、运镜、动作。但 InSpatio-World 想做的，已经不是把视频变得更像视频。它想做的是：把视频背后的场景，变成一个你可以走进去探索的世界。官网：https://www.inspatio.com/zh/models/world 这项目牛在哪官方给它的定义很直接：首个以参考视频为条件的 4D 世界模型。输入是一段单视频。输出不是简单补帧，也不是换个镜头看看。输出是一个动态世界，你可以自由探索、导航，甚至重新回到某个时刻继续看。这个差别很大。过去的视频，更像一条已经录好的河流。你只能站在岸边看它流过去。现在这个项目想做的是：把整条河，连同河岸、石头、水流方向和时间变化，一起交给你。你不只是观众。你开始变成进入世界的人。它不是在模拟像素，它是在试着模拟世界这件事最关键的技术点，叫 State-Anchored World Modeling。大白话理解，就是很多生成模型其实只是在连续地生成看起来合理的画面。它们擅长让你觉得像，未必真的维护了一个持续存在的世界状态。所以就会出现很多老问题：物体出了镜头就容易失真长时间生成容易漂换个视角，空间关系可能崩时间拉长后，因果和连续性很难稳住 InSpatio-World 想解决的，就是这些问题。它的思路是把参考视频锚定成一个局部世界状态，然后随着时间去维护和演化这个状态，让生成结果在空间和时间上尽量保持一致。官方也明确把这个方法概括为 World State Anchoring、Spatiotemporal Autoregression 和 Joint Distribution Matching Distillation。说得更直白一点：很多视频模型是在画连续截图， InSpatio-World 更像是在维护一个持续运转的小世界。这就是它最值得开发者关注的地方。为什么开发者会对它上头因为这个项目不是那种看完一句牛逼就结束的 Demo。它天然就带着很强的可玩性。你可以很自然地想到这些东西：能不能加键盘控制能不能加手柄交互能不能自己定义视角轨迹能不能做时间回放和重走能不能做成小游戏能不能给 Agent 当交互环境而 GitHub 仓库里，项目也确实把这条路留出来了。 README 公开了完整推理流程，包含视频 caption、深度估计、点云渲染和最终 v2v inference 三个步骤；同时还提供了轨迹控制方式，用户可以通过 --traj_txt_path 来控制新视角合成路径，内置了如 x_y_circle_cycle.txt 和 zoom_out_in.txt 这样的预设轨迹。开源项目地址：https://github.com/inspatio/inspatio-world 官网：https://www.inspatio.com/models/world 交流群：https://discord.com/invite/SyyjR3Z57w 这意味着什么。意味着它不是一个只适合围观的研究项目。它已经有了很明显的二次开发入口。你完全可以在它上面继续往外长：交互式世界浏览器 4D 相册视频可探索化产品轻量小游戏 Agent sandbox 自动驾驶仿真场景具身智能训练环境而这些方向，也正是官方明确写出来的应用场景，包括 Embodied Intelligence、Autonomous Driving、4D Photo Album、Toward World Simulation。它最有意思的地方，是把视频这件事往前推了一大步过去大家对 AI 视频的理解，大多还是：生成视频看视频转发视频但世界模型这条路，真正更大的想象空间是：进入视频控制视角控制时间改变交互方式让人和 Agent 都能在里面活动官网里有一句话写得很好： Beyond the Frame. Into the World. 以及另一句更狠的： From simulating pixels to simulating worlds. 这两句话其实已经把它的野心讲透了。它不是想做一个更花哨的视频生成器。它是在往下一代交互媒体和世界仿真的方向探。指标层面，它也不是空讲概念根据官方页面公开信息，InSpatio-World 的 1.3B 参数模型在 WorldScore-Dynamic 排行榜上位列实时方法第一，运行速度达到单 GPU 24 FPS 实时生成。技术页还写到，它在单张 RTX 4090 上能跑到 10 FPS。这件事很重要。因为很多听起来很未来的系统，实际只能离线慢慢跑。离实时、交互、开发者上手，还隔着很远。但 InSpatio-World 公开强调的，就是：它已经在往实时可交互的方向走。这就让它从研究展示，开始接近真正的开发底座。站在开发者视角，我为什么觉得这个项目值得 Star 我会给四个理由。 1. 它不只是又一个视频生成项目它在重新定义一件事：视频，能不能直接成为世界的入口。 2. 它有明显的 Fork 价值仓库公开了模型权重下载方式、推理流程、轨迹控制和代码结构，已经具备继续做交互层、玩法层和工具层的基础。仓库当前也已经公开在 GitHub，采用 Apache 2.0 许可证。开源项目地址：https://github.com/inspatio/inspatio-world 官网：https://www.inspatio.com/models/world 交流群：https://discord.com/invite/SyyjR3Z57w 3. 它兼顾研究深度和社区传播性很多研究项目很强，但普通开发者接不住。这个项目的好处是，你看完很容易立刻想到：我能拿它做点什么。 4. 它踩在一个更大的趋势上世界模型真正有价值的，不只是生成内容。而是让系统拥有对空间、时间、状态和因果的持续理解。官方在技术页里把长期愿景也写得很明确： Persistent Worlds Causal Interaction Agent-Centric Learning 这就说明，InSpatio-World 不是终点。它更像一个起点。这类项目，接下来会越来越重要如果说前几年大家主要在卷谁更会生图、谁更会生视频。那往后一个更值得看的方向，一定是：谁更会维护世界状态。因为内容生成只是第一步。真正更大的价值在后面：能不能长时间稳定能不能支持交互能不能支持控制能不能支持 Agent 学习能不能从播放内容，走向模拟世界 InSpatio-World 至少把这件事，做成了一个开发者可以摸到、跑起来、继续改的开源项目。这就已经很难得了。最后很多项目让人觉得厉害。少数项目会让开发者有一种很直接的冲动：这玩意我想自己 Fork 下来试试。 InSpatio-World 就属于后者。以前我们只是看视频。现在，视频开始变成一个你可以真正走进去的世界。这件事，本身就足够让人兴奋。项目地址 GitHub: https://github.com/inspatio/inspatio-world 官网: https://www.inspatio.com/zh/models/world 技术页: https://inspatio.github.io/inspatio-world/- 交流群：https://discord.com/invite/SyyjR3Z57w

首个开源世界模型，李飞飞点赞：视频变4D世界，探索可能吗？

相关推荐