首个开源世界模型,李飞飞点赞:视频变4D世界,探索可能吗?

摘要:点个 Star,开源项目地址:https:github.cominspatioinspatio-world 首个开源世界模型,李飞飞点赞:把视频直接变成一个可探索的 4D 世界 这两天看到一个很炸的项目,叫 InSpatio-Wor
点个 Star,开源项目地址:https://github.com/inspatio/inspatio-world 首个开源世界模型,李飞飞点赞:把视频直接变成一个可探索的 4D 世界 这两天看到一个很炸的项目,叫 InSpatio-World。 一句话说清楚它在干嘛: 把一段普通视频,直接变成一个可探索、可导航、可回溯的 4D 世界。 这个点为什么值得聊。 因为过去大多数视频模型,解决的是生成一段能看的内容。 你看到的是画面、镜头、运镜、动作。 但 InSpatio-World 想做的,已经不是把视频变得更像视频。 它想做的是:把视频背后的场景,变成一个你可以走进去探索的世界。 官网:https://www.inspatio.com/zh/models/world 这项目牛在哪 官方给它的定义很直接: 首个以参考视频为条件的 4D 世界模型。 输入是一段单视频。 输出不是简单补帧,也不是换个镜头看看。 输出是一个动态世界,你可以自由探索、导航,甚至重新回到某个时刻继续看。 这个差别很大。 过去的视频,更像一条已经录好的河流。 你只能站在岸边看它流过去。 现在这个项目想做的是: 把整条河,连同河岸、石头、水流方向和时间变化,一起交给你。 你不只是观众。 你开始变成进入世界的人。 它不是在模拟像素,它是在试着模拟世界 这件事最关键的技术点,叫 State-Anchored World Modeling。 大白话理解,就是很多生成模型其实只是在连续地生成看起来合理的画面。 它们擅长让你觉得像,未必真的维护了一个持续存在的世界状态。 所以就会出现很多老问题: 物体出了镜头就容易失真 长时间生成容易漂 换个视角,空间关系可能崩 时间拉长后,因果和连续性很难稳住 InSpatio-World 想解决的,就是这些问题。 它的思路是把参考视频锚定成一个局部世界状态,然后随着时间去维护和演化这个状态,让生成结果在空间和时间上尽量保持一致。官方也明确把这个方法概括为 World State Anchoring、Spatiotemporal Autoregression 和 Joint Distribution Matching Distillation。 说得更直白一点: 很多视频模型是在画连续截图, InSpatio-World 更像是在维护一个持续运转的小世界。 这就是它最值得开发者关注的地方。 为什么开发者会对它上头 因为这个项目不是那种看完一句牛逼就结束的 Demo。 它天然就带着很强的可玩性。 你可以很自然地想到这些东西: 能不能加键盘控制 能不能加手柄交互 能不能自己定义视角轨迹 能不能做时间回放和重走 能不能做成小游戏 能不能给 Agent 当交互环境 而 GitHub 仓库里,项目也确实把这条路留出来了。 README 公开了完整推理流程,包含视频 caption、深度估计、点云渲染和最终 v2v inference 三个步骤;同时还提供了轨迹控制方式,用户可以通过 --traj_txt_path 来控制新视角合成路径,内置了如 x_y_circle_cycle.txt 和 zoom_out_in.txt 这样的预设轨迹。 开源项目地址:https://github.com/inspatio/inspatio-world 官网:https://www.inspatio.com/models/world 交流群:https://discord.com/invite/SyyjR3Z57w 这意味着什么。 意味着它不是一个只适合围观的研究项目。 它已经有了很明显的二次开发入口。 你完全可以在它上面继续往外长: 交互式世界浏览器 4D 相册 视频可探索化产品 轻量小游戏 Agent sandbox 自动驾驶仿真场景 具身智能训练环境 而这些方向,也正是官方明确写出来的应用场景,包括 Embodied Intelligence、Autonomous Driving、4D Photo Album、Toward World Simulation。
阅读全文