Google DeepMind 近日推出了一项实验性 AI 工具 Project Genie,允许用户通过文本提示或上传图像,实时生成并探索互动的虚拟世界。TechCrunch 记者 Rebecca Bellan 在 2026 年 1 月 29 日发表的文章《I built marshmallow castles in Google’s new AI-world generator》中,亲身体验并详细报道了这个工具的玩法和表现。
Project Genie 是什么?
Project Genie 是基于 Google DeepMind 的最新世界模型 Genie 3、图像生成模型 Nano Banana Pro 以及 Gemini 组合而成的原型工具。它属于“世界模型”(world model)范畴,这种 AI 能构建环境的内部表示、预测未来状态并支持互动,被视为通往 AGI(人工通用智能)的重要一步。短期内,它主要面向视频游戏、娱乐和机器人模拟训练等领域。
用户可以:
- 用文本描述环境和主角(支持第一人称或第三人称视角)
- 上传真实照片作为起点生成世界
- 修改生成的图像、进行“世界重混”(remix)
- 在实时生成的 3D 环境中自由探索、移动、跳跃,甚至与物体互动
整个世界会在你移动时动态生成,模拟物理和互动(比如物体被推动会有反应)。
作者的亲身尝试:棉花糖城堡体验
Rebecca Bellan 决定实现童年幻想:在一个由棉花糖构成的云端城堡中探索,周围有巧克力酱河流和糖果树,整体采用黏土动画(claymation)风格。
结果令人印象深刻:
- 生成的城堡呈现粉彩色调、蓬松的白色尖塔,看起来非常梦幻诱人。
- 河流、树木等元素都成功体现,整体氛围甜美奇幻。
她还尝试了其他输入:
- 用办公室照片生成世界 → 结果布局变化大,真实感不足。
- 用带毛绒玩具的桌面照片 → 玩具可以被操控并影响周围物体。
不过也存在局限:
- 导航控制有时不灵敏(WASD 移动 + 空格跳跃 + 箭头转向),角色容易穿墙或方向混乱。
- 真实照片级或电影级世界生成效果较弱,更擅长艺术风格(如水彩、动漫、卡通)。
- 出于计算资源限制,每个会话仅支持 60 秒 的生成和探索时间,且每个用户独占专用芯片。
Google 官方解释与定位
DeepMind 研究主任 Shlomi Fruchter 表示:
- 60 秒限制是为了让更多人能体验,而不是做成日常产品。
- “我们不把它视为人们每天都会回去用的完整产品,但它已经展现了一些独特、有趣、其他方式无法实现的东西。”
这是一次向用户开放以收集反馈和训练数据的实验,目前仅限美国的 Google AI Ultra 订阅用户(18 岁以上)访问,地址:https://labs.google/projectgenie
行业意义与竞争
Project Genie 的推出加剧了“世界模型”领域的竞争,包括:
- Fei-Fei Li 的 World Labs(Marble,已商业化)
- Runway 的世界模型(支持音频)
- 其他实验室的类似项目
它被视为 AI 模拟能力的重要进步,未来可能大幅改变游戏开发、虚拟现实、机器人训练等领域。
总的来说,虽然目前仍是早期原型、存在不少 bug 和限制,但 Project Genie 已经让很多人看到“用一句话就能走进自己脑洞世界”的可能性——就像作者真的在棉花糖城堡里跳来跳去那样魔幻而有趣。如果你有 Google AI Ultra 订阅,不妨去试试看能生成什么奇奇怪怪的世界!