Gemini Omni 现已上线

Gemini Omni 视频生成器

Speak it. See it. Share it. 像聊天一样制作视频——它是 Nano Banana 的视频版：从零开始、混搭相册照片，或直接套用范本。

对话式生成

多模态混搭

AI 虚拟化身

支持 4 / 6 / 8 / 10 秒短片，最多 3 张参考图融合。

打开完整视频生成器查看案例

核心能力

Gemini Omni 的六大核心能力

Google 官方定位：影片版的 Nano Banana——人人都能用对话生成、混搭、编辑视频。

万物皆可创：多模态混搭

把文字、图片、视频自由组合输入，让想法直接跃然画面。一段描述 + 一张照片 + 一段参考片就能产出新作品。

vlog 灵感即时落地、社媒短视频混剪、相册照片动态化、参考片再创作。

保留照片的灵魂

更换背景、改变穿搭、转移风格，原图细节原封不动。换场景但不换“神韵”。

证件照变形象大片、商品场景替换、风格化时装片、相册回忆重塑。

NEW

对话式编辑

用一句话告诉 Gemini 想改什么——换角色、调整光线、稳定画面、改背景，无需重新生成整段。

客户反馈即时改、广告反复打磨、社媒内容迭代、剪辑替代式精修。

NEW

视频转视频编辑

上传一段现有视频作为输入，让 Gemini 用 AI 在原片基础上做剪辑、改风格、换场景。

老素材二次创作、多版本风格化输出、参考片重制、跨账号内容再分发。

NEW

AI 虚拟化身

生成与你外貌、声音相似的 AI 化身，省去每次上传照片的麻烦。一次设定，反复出镜。

口播账号矩阵、品牌创始人内容、海外多语言分发、教学/带货主播。

精选风格范本 + 原生音频

轻触一下就能套用 Google 精选风格范本；10 秒短片自带原生音轨，对白与画面同步生成。

创作新手快速上手、节日营销批量出片、对白短片、多语言解说。

应用案例

Gemini Omni 官方示例

全部视频来自 Google Gemini 官方页面，展示 Omni 在六大场景下的真实效果。

技术规格

Gemini Omni 技术参数

Google 官方公布的模型规格与使用约束。

模型代号

Gemini Omni Flash

多模态 AI 视频生成与编辑模型，将取代 Gemini app 内的 Veo 3.1

片段长度

10 秒

单次生成上限 10 秒

输入模态

文字 + 图片 + 视频

可混搭多达 5 张参考照片

视频转视频编辑

支持（NEW）

上传现有视频作为输入，AI 直接做剪辑与改写

多轮编辑

支持（NEW）

在已生成视频上继续对话精修

原生音频

内置语音生成

对白、环境声与画面同步生成

AI 虚拟化身

外貌 / 声音一致（NEW）

一次设定反复出镜，无需每次上传照片

SynthID 水印

所有视频内嵌

Google 隐形水印，可辨识 AI 生成内容

使用门槛

Google AI Plus / Pro / Ultra

18 岁以上、按地区开放，部分功能区域受限

升级路径

从 Veo 3.1 到 Gemini Omni

Google 官方：Gemini Omni 将取代 Gemini app 中的 Veo。一次定位的跃迁——从“生成”升级到“生成 + 编辑”。

对话式编辑

把视频生成从“抽奖”变成“工作流”

传统视频模型一旦不满意就要重生成，Gemini Omni 让你像和剪辑师对话一样精修。

两种典型用法

首次生成

用自然语言描述完整场景，AI 一次性输出 10 秒草稿

咖啡师在窗边的台子前手冲一杯咖啡，午后阳光透过百叶窗投下条纹阴影，特写慢慢拉到她微笑的侧脸。

适合初稿、灵感探索，先看到画面再决定调整方向

对话精修

在已有视频上发起后续指令，只重渲染被改动的部分

把第 3-5 秒的滤光改成更暖的金色色调；
保持人物不变，把背景的墨绿色百叶窗换成米白色；
在结尾 2 秒加入她抬头微笑的特写。

节省积分、保留已经满意的部分、迭代速度更接近真实剪辑工作流

对话编辑最佳实践

先把整段视频生成出来再启动对话编辑，不要在初稿没成形时反复打断
一条指令只改一件事（色调、运镜、台词其一），改完再下一条
用时间区间锁定要改的范围（例如：第 2-4 秒、结尾两秒）
保留 task_id 与 callback，便于工程链路追踪修改历史
想换角色身份时，重新上传参考图，而不是用文字描述外貌

专业提示

对话指令里包含动词 + 对象 + 修饰（'把背景换成 X' 优于 '背景不太对'）
需要换镜头语言时，明确说 '改为特写 / 中景 / 推镜头'
失败任务不会扣费，遇到偶发失败直接幂等重试即可
重要任务接入 webhook，避免长轮询浪费请求配额

提示词指南

Gemini Omni 提示词最佳实践

对话式编辑下，提示词不再只是“一次性指令”，而是“多轮协作”的基础。

初稿生成模板

一段约 10 秒视频：[场景]，[主体动作]，[镜头语言]，[光线 / 氛围]，[原生音频描述：环境声 / 对白 / 音乐风格]。

为什么有效：包含场景 + 动作 + 镜头 + 音频四要素，AI 能一次性输出可用底稿

适用场景：所有首次生成

局部替换模板

保持人物 / 构图 / 节奏不变，把 [元素] 替换为 [新元素]；其余部分维持原样。

为什么有效：明确告诉模型哪些不变、哪些要改，避免“顺便重新生成”

适用场景：替换背景、道具、文字、色调

时间区间模板

在第 [a]-[b] 秒：[要做的改动]；其他时间段保持不变。

为什么有效：用时间锚定改动范围，模型只重渲染对应帧

适用场景：精修开场、结尾、关键瞬间

参考图 + 多镜头模板

参考图为 [角色 / 商品] 的视觉锚点。生成 3 个连续镜头：镜头 1 [动作/景别]；镜头 2 [动作/景别]；镜头 3 [动作/景别]。三镜头中保持参考图身份一致。

为什么有效：参考图锁身份 + 显式分镜，结合长上下文一致性最大化效果

适用场景：剧情广告、连续内容、IP 系列视频

常见问题

Gemini Omni 常见问题

Gemini Omni 是什么？

Gemini Omni 是一款能够理解世界的模型，让你为照片注入动作，或用任何输入生成视频。它构建在 Gemini 的世界理解和原生多模态能力之上，输出的内容遵循真实世界的逻辑，并支持通过自然对话一步步精修。只需一条提示词，你就能变成 AI 视频剪辑师——把任意文字 / 图片 / 视频的组合变成视频、用最多 5 张照片做参考生成视频、轻松编辑已有视频。

支持哪些输入？

文字描述、图片（最多 5 张参考照片）、视频片段。三种模态可以自由混搭，作为生成或编辑的输入。

可以做哪些编辑？

用对话指令更换角色、调整光线、稳定画面、修改背景、转移风格、改变穿搭——原图的关键细节会被保留。

生成的视频多长？

单次生成上限 10 秒。可以通过新的对话指令在原片基础上扩展或精修。

AI 虚拟化身是什么？

训练一次属于你的 AI 化身，之后无需每次上传照片，化身就能用你的外貌和声音持续出镜——适合口播账号、品牌内容、海外分发。

生成的视频有水印吗？

Google 在所有 Omni 生成视频中嵌入 SynthID 隐形水印，用于标识 AI 生成内容，不影响观看体验。

开始创作

说出想法，看见成果

Gemini Omni 让视频创作回到对话的节奏——人人都能用一句话开始，再用一句话改完。

像聊天一样制作视频

文字、图片、视频自由混搭

对话式编辑，改完即看

AI 虚拟化身一次设定反复出镜