Google rivela Gemini, la risposta a GPT-4
Questa settimana è stata segnata dal lancio a sorpresa di Gemini, il nuovo modello di intelligenza artificiale di Google, progettato per competere con il potente GPT-4 di OpenAI. Contrariamente alle voci che avevano erroneamente annunciato il rinvio del progetto, Gemini è stato rilasciato inaspettatamente insieme al December Feature Drop per i telefoni Pixel.
Gemini rappresenta il vertice delle capacità avanzate di Google nel campo dell’intelligenza artificiale. Si tratta di un modello multimodale, in grado di operare su testo, immagini, audio, video e codice. La sua versatilità è evidenziata dalla capacità di combinare, comprendere e operare su questi diversi tipi di informazioni in modo fluido. La sua disponibilità in tre dimensioni (Ultra, Pro e Nano) consente di eseguirlo sia su telefoni che su data center, aprendo nuove possibilità per l’implementazione su vasta scala.
La sfida diretta con GPT-4 è stata affrontata senza esitazioni da Google, che ha confrontato Gemini Ultra con l’ultimo modello di OpenAI in numerosi benchmark. Nei test orientati al testo, Gemini è emerso vincitore in sette degli otto test focalizzati su ragionamento, matematica e capacità di codifica. I benchmark multimodali hanno mostrato la superiorità di Gemini in tutte e dieci le categorie di immagini, video e audio utilizzate da Google. L’azienda afferma addirittura che Gemini supera gli esperti umani nelle attività di comprensione linguistica multitasking su larga scala.
Questi risultati promettenti sono attribuiti al design multimodale di Gemini. Grazie alla sua capacità nativa di lavorare con immagini e testo, non richiede l’ausilio di sistemi OCR (riconoscimento ottico dei caratteri) per rendere leggibili i testi da immagini e documenti. La formazione di Gemini ha coinvolto diverse modalità fin dall’inizio, a differenza dell’approccio convenzionale che prevede la fusione di modalità separate dopo la formazione.
Alla luce dell’incidente recente di ChatGPT, che ha rivelato dati di addestramento grezzi tramite un attacco piuttosto semplice, Google sottolinea che la sicurezza è al centro del suo modello. L’azienda ha implementato una serie di tecniche, inclusi classificatori di sicurezza per evitare violenza e stereotipi, oltre a garantire la correttezza dei fatti, l’efficacia di queste misure sarà verificata solo attraverso test nel mondo reale.
Per quanto riguarda le lingue oltre l’inglese, non è chiaro quanto sia efficace Gemini. Il modello, al momento, supporta solo l’inglese, e ciò potrebbe confermare le preoccupazioni citate in un precedente rapporto riguardo alle prestazioni multilingue insufficienti.
In un’iniziativa sorprendente, Google ha già reso disponibile Gemini. La versione Pro del modello è stata integrata nel concorrente di ChatGPT di Google, Bard, con una versione appositamente tarata di Gemini Pro in inglese per ragionamento avanzato, pianificazione e comprensione più approfondita. L’anno prossimo, Google introdurrà Bard Advanced, che darà accesso alle sue capacità e modelli più avanzati. La disponibilità della versione Advanced a pagamento potrebbe riflettere la strategia di OpenAI con ChatGPT. Come accennato, Gemini è attualmente disponibile solo per la versione inglese di Bard.
Gemini raggiunge anche il Google Pixel 8 Pro come parte del December Feature Drop per i telefoni Pixel. Utilizzando la variante Nano dell’IA, alimenta funzionalità come il riepilogo nell’app esclusiva Recorder di Pixel e una versione di anteprima delle risposte intelligenti in Gboard. Quest’ultima funzione sarà prima disponibile su WhatsApp, ma Google afferma che si estenderà ad altre app di comunicazione l’anno prossimo.
Nei prossimi mesi, Google renderà disponibile Gemini per altri prodotti, tra cui Search, Ads, Chrome e Duet AI. L’azienda ha anche annunciato di aver già iniziato i test di Gemini in Search per la Search Generative Experience (SGE), ottenendo una riduzione del 40% della latenza in inglese negli Stati Uniti.
Gli sviluppatori Android interessati possono iscriversi a una versione di anteprima di Gemini Nano, che consente di aggiungere l’IA alle proprie applicazioni. Questo sforzo fa parte dell’app AICore di Google, precedentemente preinstallata su Pixel 8 Pro, ora svelata. Google ha inoltre annunciato che l’app sarà disponibile su più dispositivi nei prossimi mesi, sfruttando le capacità di apprendimento automatico presenti nei processori di Qualcomm, Samsung S.LSI, MediaTek e ovviamente Google stesso.
Mentre le versioni Pro e Nano di Gemini sono già disponibili, Google sta ancora ottimizzando la versione Ultra del suo modello più avanzato. La fase di test di sicurezza, inclusa quella con i partner industriali, precederà il rilascio su larga scala previsto “all’inizio del prossimo anno” per sviluppatori e clienti aziendali.