Gemini Omni 现已上线

Gemini Omni 视频生成器

Speak it. See it. Share it. 像聊天一样制作视频——它是 Nano Banana 的视频版:从零开始、混搭相册照片,或直接套用范本。

对话式生成
多模态混搭
AI 虚拟化身

支持 4 / 6 / 8 / 10 秒短片,最多 3 张参考图融合。

核心能力

Gemini Omni 的六大核心能力

Google 官方定位:影片版的 Nano Banana——人人都能用对话生成、混搭、编辑视频。

万物皆可创:多模态混搭

把文字、图片、视频自由组合输入,让想法直接跃然画面。一段描述 + 一张照片 + 一段参考片就能产出新作品。

vlog 灵感即时落地、社媒短视频混剪、相册照片动态化、参考片再创作。

保留照片的灵魂

更换背景、改变穿搭、转移风格,原图细节原封不动。换场景但不换“神韵”。

证件照变形象大片、商品场景替换、风格化时装片、相册回忆重塑。

NEW

对话式编辑

用一句话告诉 Gemini 想改什么——换角色、调整光线、稳定画面、改背景,无需重新生成整段。

客户反馈即时改、广告反复打磨、社媒内容迭代、剪辑替代式精修。

NEW

视频转视频编辑

上传一段现有视频作为输入,让 Gemini 用 AI 在原片基础上做剪辑、改风格、换场景。

老素材二次创作、多版本风格化输出、参考片重制、跨账号内容再分发。

NEW

AI 虚拟化身

生成与你外貌、声音相似的 AI 化身,省去每次上传照片的麻烦。一次设定,反复出镜。

口播账号矩阵、品牌创始人内容、海外多语言分发、教学/带货主播。

精选风格范本 + 原生音频

轻触一下就能套用 Google 精选风格范本;10 秒短片自带原生音轨,对白与画面同步生成。

创作新手快速上手、节日营销批量出片、对白短片、多语言解说。

应用案例

Gemini Omni 官方示例

全部视频来自 Google Gemini 官方页面,展示 Omni 在六大场景下的真实效果。

技术规格

Gemini Omni 技术参数

Google 官方公布的模型规格与使用约束。

模型代号
Gemini Omni Flash
多模态 AI 视频生成与编辑模型,将取代 Gemini app 内的 Veo 3.1
片段长度
10 秒
单次生成上限 10 秒
输入模态
文字 + 图片 + 视频
可混搭多达 5 张参考照片
视频转视频编辑
支持(NEW)
上传现有视频作为输入,AI 直接做剪辑与改写
多轮编辑
支持(NEW)
在已生成视频上继续对话精修
原生音频
内置语音生成
对白、环境声与画面同步生成
AI 虚拟化身
外貌 / 声音一致(NEW)
一次设定反复出镜,无需每次上传照片
SynthID 水印
所有视频内嵌
Google 隐形水印,可辨识 AI 生成内容
使用门槛
Google AI Plus / Pro / Ultra
18 岁以上、按地区开放,部分功能区域受限
升级路径

从 Veo 3.1 到 Gemini Omni

Google 官方:Gemini Omni 将取代 Gemini app 中的 Veo。一次定位的跃迁——从“生成”升级到“生成 + 编辑”。

对话式编辑

把视频生成从“抽奖”变成“工作流”

传统视频模型一旦不满意就要重生成,Gemini Omni 让你像和剪辑师对话一样精修。

两种典型用法

首次生成

用自然语言描述完整场景,AI 一次性输出 10 秒草稿

咖啡师在窗边的台子前手冲一杯咖啡,午后阳光透过百叶窗投下条纹阴影,特写慢慢拉到她微笑的侧脸。

适合初稿、灵感探索,先看到画面再决定调整方向

对话精修

在已有视频上发起后续指令,只重渲染被改动的部分

把第 3-5 秒的滤光改成更暖的金色色调; 保持人物不变,把背景的墨绿色百叶窗换成米白色; 在结尾 2 秒加入她抬头微笑的特写。

节省积分、保留已经满意的部分、迭代速度更接近真实剪辑工作流

对话编辑最佳实践

  • 先把整段视频生成出来再启动对话编辑,不要在初稿没成形时反复打断
  • 一条指令只改一件事(色调、运镜、台词其一),改完再下一条
  • 用时间区间锁定要改的范围(例如:第 2-4 秒、结尾两秒)
  • 保留 task_id 与 callback,便于工程链路追踪修改历史
  • 想换角色身份时,重新上传参考图,而不是用文字描述外貌

专业提示

  • 对话指令里包含动词 + 对象 + 修饰('把背景换成 X' 优于 '背景不太对')
  • 需要换镜头语言时,明确说 '改为特写 / 中景 / 推镜头'
  • 失败任务不会扣费,遇到偶发失败直接幂等重试即可
  • 重要任务接入 webhook,避免长轮询浪费请求配额
提示词指南

Gemini Omni 提示词最佳实践

对话式编辑下,提示词不再只是“一次性指令”,而是“多轮协作”的基础。

初稿生成模板

一段约 10 秒视频:[场景],[主体动作],[镜头语言],[光线 / 氛围],[原生音频描述:环境声 / 对白 / 音乐风格]。

为什么有效:包含场景 + 动作 + 镜头 + 音频四要素,AI 能一次性输出可用底稿

适用场景:所有首次生成

局部替换模板

保持人物 / 构图 / 节奏不变,把 [元素] 替换为 [新元素];其余部分维持原样。

为什么有效:明确告诉模型哪些不变、哪些要改,避免“顺便重新生成”

适用场景:替换背景、道具、文字、色调

时间区间模板

在第 [a]-[b] 秒:[要做的改动];其他时间段保持不变。

为什么有效:用时间锚定改动范围,模型只重渲染对应帧

适用场景:精修开场、结尾、关键瞬间

参考图 + 多镜头模板

参考图为 [角色 / 商品] 的视觉锚点。生成 3 个连续镜头:镜头 1 [动作/景别];镜头 2 [动作/景别];镜头 3 [动作/景别]。三镜头中保持参考图身份一致。

为什么有效:参考图锁身份 + 显式分镜,结合长上下文一致性最大化效果

适用场景:剧情广告、连续内容、IP 系列视频

常见问题

Gemini Omni 常见问题

Gemini Omni 是什么?

Gemini Omni 是一款能够理解世界的模型,让你为照片注入动作,或用任何输入生成视频。它构建在 Gemini 的世界理解和原生多模态能力之上,输出的内容遵循真实世界的逻辑,并支持通过自然对话一步步精修。只需一条提示词,你就能变成 AI 视频剪辑师——把任意文字 / 图片 / 视频的组合变成视频、用最多 5 张照片做参考生成视频、轻松编辑已有视频。

支持哪些输入?

文字描述、图片(最多 5 张参考照片)、视频片段。三种模态可以自由混搭,作为生成或编辑的输入。

可以做哪些编辑?

用对话指令更换角色、调整光线、稳定画面、修改背景、转移风格、改变穿搭——原图的关键细节会被保留。

生成的视频多长?

单次生成上限 10 秒。可以通过新的对话指令在原片基础上扩展或精修。

AI 虚拟化身是什么?

训练一次属于你的 AI 化身,之后无需每次上传照片,化身就能用你的外貌和声音持续出镜——适合口播账号、品牌内容、海外分发。

生成的视频有水印吗?

Google 在所有 Omni 生成视频中嵌入 SynthID 隐形水印,用于标识 AI 生成内容,不影响观看体验。

开始创作

说出想法,看见成果

Gemini Omni 让视频创作回到对话的节奏——人人都能用一句话开始,再用一句话改完。

像聊天一样制作视频
文字、图片、视频自由混搭
对话式编辑,改完即看
AI 虚拟化身一次设定反复出镜
Gemini Omni:Google 对话式视频生成模型 | 晓得AI | 晓得AI