Gemini Omni: video AI da ogni input

Gemini Omni è il nuovo modello Google pensato per creare e modificare video partendo da testo, immagini, audio o altri video. La novità principale riguarda la modifica conversazionale, con scene più coerenti, personaggi più stabili e maggiore comprensione del contesto. Il primo modello, Gemini Omni Flash, è già disponibile per alcuni utenti tramite Gemini e Google Flow. Arrivano anche nuove funzioni per Google Flow Music, app mobile dedicate e filigrana digitale SynthID sui contenuti generati.

Aggiungi Batista70Phone come
Fonte preferita su Google

Gemini Omni è una delle novità più importanti presentate da Google durante il keynote di apertura del Google I/O 2026. Il nuovo modello porta la generazione video AI in una fase più avanzata, perché unisce le capacità di ragionamento di Gemini con strumenti creativi pensati per produrre contenuti da input diversi.

La logica è semplice da raccontare, ma ambiziosa nella pratica. L’utente può partire da testo, immagini, video o audio e ottenere un contenuto video coerente. Inoltre, può modificarlo tramite linguaggio naturale, senza passare da strumenti complessi di editing.

Google punta quindi a rendere la creazione video più accessibile, ma anche più controllabile. Non si parla solo di generare clip da un prompt, perché Gemini Omni può intervenire su elementi specifici, cambiare stile, ambiente, inquadratura e dettagli, mantenendo una maggiore continuità tra le scene.

Gemini Omni porta la modifica video conversazionale

La funzione più rilevante di Gemini Omni riguarda la modifica conversazionale dei video. L’utente può dare istruzioni successive e il modello tiene conto delle indicazioni precedenti. In questo modo, il lavoro creativo procede per passaggi, quasi come una conversazione con un editor digitale.

Il sistema può modificare singoli dettagli, cambiare elementi della scena o trasformare l’intero contenuto. Inoltre, può aggiungere personaggi, oggetti e interazioni, adattando il risultato alle richieste dell’utente.

La parte tecnica più delicata riguarda la coerenza. Secondo il materiale disponibile, Gemini Omni mantiene più stabili i personaggi, gestisce meglio la fisica e collega gli eventi tra una scena e l’altra. Quindi il video non nasce come una sequenza casuale di immagini, ma come una narrazione più ordinata.

Questa capacità apre scenari utili per creator, videomaker, social media manager e professionisti della comunicazione. Chi lavora sui contenuti può partire da una bozza, correggere parti specifiche e costruire varianti senza rifare tutto da zero.

Gemini Omni usa testo, immagini, video e audio

Gemini Omni nasce per lavorare con input diversi. Google parla di una famiglia di modelli capace di trasformare riferimenti testuali, visivi, video e sonori in un unico output coerente. All’inizio saranno supportati solo i riferimenti vocali, mentre altri tipi di input audio arriveranno più avanti.

L’utente potrà usare ciò che ha già a disposizione. Un’immagine di un personaggio, una scena, un disegno o un riferimento visivo potranno guidare la creazione del video. Inoltre, le descrizioni in linguaggio naturale serviranno a definire tono, stile e direzione creativa.

La forza del modello sta nella combinazione dei riferimenti. Gemini Omni può collegare elementi diversi e usarli per produrre un risultato più vicino all’idea iniziale dell’utente. Questo può ridurre la distanza tra prompt e contenuto finale, una delle difficoltà più comuni nei sistemi generativi.

Google sottolinea anche la comprensione del mondo reale. Il modello ragiona su elementi fisici, culturali, scientifici e visivi per rendere le scene più credibili. Quindi la generazione non dipende solo dall’aspetto estetico, ma anche dal modo in cui gli oggetti e le azioni dovrebbero comportarsi.

Gemini Omni Flash arriva su Gemini e Google Flow

Il primo modello della famiglia si chiama Gemini Omni Flash ed è già disponibile nell’app Gemini e in Google Flow, sia via Web sia ora anche su Android. L’accesso riguarda gli abbonati ai piani Google AI Plus, Google AI Pro e Google AI Ultra.

A partire da questa settimana, lo strumento arriverà senza costi aggiuntivi anche nelle app YouTube Shorts e YouTube Create. Nelle prossime settimane, inoltre, Google lo renderà disponibile per sviluppatori e utenti enterprise tramite le API di Gemini.

Ogni video generato con i modelli Gemini Omni include la filigrana digitale SynthID. Questo sistema permette di verificare la natura AI del contenuto tramite app Gemini, Gemini in Chrome e Ricerca Google.

La presenza di SynthID è importante, perché la generazione video AI rende sempre più delicata la distinzione tra contenuti reali e contenuti creati da un modello. Google inserisce quindi un livello di tracciabilità direttamente nel processo di creazione.

Le novità non si fermano al modello. Google Flow riceve infatti nuove funzioni per sfruttare Gemini Omni Flash su scala globale per gli abbonati ai piani Google AI. La suite può fondere ispirazione reale e contenuti generati, mantenendo più coerenti identità e voce dei personaggi tra le scene.

Arriva anche Google Flow Agent, disponibile a livello globale. È un assistente creativo basato sui modelli Gemini, pensato per aiutare nelle fasi di brainstorming, costruzione, modifica e organizzazione del progetto. Può ragionare su attività complesse, proporre variazioni e gestire modifiche in batch sulle risorse.

Google Flow Music e app mobile completano il pacchetto

Google Flow Music riceve strumenti più avanzati per la creazione e la modifica musicale. Gli utenti possono intervenire su sezioni specifiche di un brano, modificare una parte precisa e usare un campione per proseguire la composizione in una nuova direzione.

Arriva anche la funzione cover, pensata per cambiare lo stile di brani già creati, mantenendo melodia e struttura originali. Inoltre, gli abbonati ai piani Google AI possono creare video musicali con Gemini Omni, scegliendo stile, soggetti e scene in base alla narrazione e al ritmo.

Google porta poi Flow e Flow Music su mobile. L’app Google Flow è disponibile in beta per Android e arriverà anche su iOS. Al contrario, Google Flow Music è già disponibile su iOS e arriverà in seguito su Android.

Le versioni Web restano il riferimento per accedere a tutte le funzioni, mentre le app mobile servono a creare anche lontano dalla scrivania. Per chi lavora sui contenuti, questo può rendere il flusso creativo più rapido e meno legato al computer.

Con Gemini Omni, Google prova a mettere insieme generazione video, modifica conversazionale, musica e strumenti creativi in un ambiente unico. Il risultato punta a un uso più fluido dell’AI, dove l’utente non si limita a scrivere un prompt, ma costruisce e rifinisce il contenuto passo dopo passo.

Lascia un commento