Ovi: Twin backbone cross-modal fusion for audio-video generation

Video Demo

final_ovi_trailer.mp4

🌟 Key Features

Ovi is a veo-3 like, video+audio generation model that simultaneously generates both video and audio content from text or text+image inputs.

🎬 Video+Audio Generation : Generate synchronized video and audio content simultaneously 🎵 High-Quality Audio Branch : We designed and pretrained our 5B audio branch from scratch using our high quality in-house audio datasets

: Generate synchronized video and audio content simultaneously 📝 Flexible Input : Supports text-only or text+image conditioning

: Supports text-only or text+image conditioning ⏱️ 5-second Videos : Generates 5-second videos at 24 FPS, area of 720×720, at various aspect ratios (9:16, 16:9, 1:1, etc) 🎯 High-Resolution Support : Feel free to try 960×960 area (e.g., 720×1280, 704×1344, etc) - it could give outstanding results for both t2v and i2v! See examples below:

: Generates 5-second videos at 24 FPS, area of 720×720, at various aspect ratios (9:16, 16:9, 1:1, etc) 🎬 Create videos now on wavespeed.ai : https://wavespeed.ai/models/character-ai/ovi/image-to-video & https://wavespeed.ai/models/character-ai/ovi/text-to-video

: https://wavespeed.ai/models/character-ai/ovi/image-to-video & https://wavespeed.ai/models/character-ai/ovi/text-to-video 🎬 Create videos now on HuggingFace : https://huggingface.co/spaces/akhaliq/Ovi

: https://huggingface.co/spaces/akhaliq/Ovi 🔧 ComfyUI Integration (WIP): ComfyUI support is now available via ComfyUI-WanVideoWrapper, related PR.

... continue reading