4K视频生成!Google版Sora秀肌肉,再度狙击OpenAI * 阿波罗新闻网
新闻 > 科教 > 正文
4K视频生成!Google版Sora秀肌肉,再度狙击OpenAI

就在刚刚,Google Deepmind推出了新的视频模型 Veo2和 Imagen3。

Google CEO Sundar Pichai第一时间在 X平台发文介绍了这两款产品:

我们非常荣幸推出 Veo2,这款全新、最先进的视频模型(具备更强的真实世界物理与运动理解,支持最高4K分辨率)。

你可以在 VideoFX上加入等候名单。

我们改进后的 Imagen3模型同样达到了行业领先的成果,并将于今天在100多个国家推出,届时将在 ImageFX平台上线。

根据官方介绍,Veo2带来了多项重要突破:

支持制作高达4K分辨率的视频

能够识别指令中的摄像机控制,例如广角、第一人称视角和无人机拍摄

能更真实地模拟物理现象和人类表情变化

相比其他视频模型常见的“错误生成”问题(如多余手指或意外物体),Veo2显著降低了这类错误的出现频率,大幅提升了输出结果的真实度。

在安全性方面,所有由 Veo2生成的视频都会嵌入不可见的 SynthID水印,便于识别其 AI生成的属性。

Google Labs的视频生成工具 VideoFX已集成了 Veo2的新功能,同时扩大了用户访问范围。

不过,DeepMind有意控制推广的速度,计划在明年将 Veo2的功能逐步引入 YouTube Shorts等产品,以在扩展应用范围的同时确保模型质量和安全性。

在性能评测方面,Veo2展现出了领先优势。

在 Meta发布的基准测试数据集 MovieGenBench上,参与者观看了1003个提示及其对应的视频。结果显示,Veo2在整体用户偏好度和指令遵循准确性方面均位居榜首。

测试统一在720p分辨率下进行,其中 Veo生成8秒视频,VideoGen生成10秒视频,其他模型则生成5秒视频。评分者观看了所有视频的完整长度。

注意看,对比测试对象中也出现了国产 AI视频模型(可灵 AI、Minimax)以及最新发布的 Sora Turbo。

所有比较均在720p分辨率下进行。Veo的视频样本长度为8秒,VideoGen的为10秒,其他模型的为5秒。评分者将看到完整视频长度。

尽管 Veo2取得了显著进步,但在生成真实、动态或复杂场景的视频时,仍面临着保持场景连贯性的挑战。DeepMind表示将持续优化这些领域的性能。

与此同时,Imagen3也实现了重大突破。

新版本不仅支持创作多种艺术风格(包括现实主义、幻想、肖像等),能够更精确地将文字描述转化为图像,以及生成更明亮、构图更协调的视觉作品。

即日起,Imagen3将通过 Google Labs的 ImageFX在全球超过100个国家推出。

此外,Google还推出了名为 Whisk的工具。

该工具在技术层面整合了最新的 Imagen3模型与 Gemini的视觉理解能力。

Gemini模型可以自动为图像生成详细描述,这些描述随后会作为输入传递给 Imagen3。

用户可以通过导入或创作图像,表达特定主题、场景和风格需求,并将这些元素融合重组,创作数字化产品,比如毛绒玩具、珐琅别针或贴纸等。

今天 DeepMind在核心技术上的突破,无疑比 OpenAI简单的功能叠加更具价值,从嵌入 SynthID水印到采取渐进式推广策略,也让这次更新显得格外厚重。

真正 AI产品的更新,不仅在于它能做什么,更在于它如何做,以及为谁而做。

责任编辑: 李华  来源:AppSo 转载请注明作者、出处並保持完整。

本文网址:https://d3lxuwvwo1hamd.cloudfront.net/2024/1218/2146668.html