Gemini 3.5 Flash Low riduce il consumo di token
Gemini 3.5 Flash ha ricevuto una nuova variante Low pensata per consumare meno token nei compiti semplici: la novità nasce dopo le critiche degli utenti di Google Antigravity, che avevano visto esaurire le quote troppo in fretta. Secondo Google, la nuova variante genera circa il 45% di token in meno rispetto alla versione Medium. Il cambio aiuta, però mostra anche quanto sia delicato il nuovo sistema di limiti basato sul calcolo.
Gemini 3.5 Flash cambia strategia
Gemini 3.5 Flash è nato come modello veloce, capace e adatto anche a flussi agentici complessi: Google lo ha presentato come una delle novità più importanti della nuova famiglia Gemini 3.5, con un focus forte su coding, agenti AI e attività lunghe.
Il problema è arrivato subito dopo, soprattutto dentro Google Antigravity: diversi utenti hanno segnalato un consumo troppo alto delle quote, anche durante operazioni non particolarmente complesse. In alcuni casi, il limite settimanale finiva molto prima del previsto.
Google aveva già risposto aumentando più volte i limiti in Antigravity, però la questione non era solo quanta quota dare agli utenti. Il tema era anche quanto ogni singola attività consumasse.
Da qui nasce Gemini 3.5 Flash Low, una variante pensata per gestire meglio le operazioni semplici. L’idea è usare meno “sforzo” quando il compito non richiede il modello al massimo.
Gemini 3.5 Flash Low usa meno token
La nuova variante punta a ridurre il consumo nei casi più leggeri: secondo quanto indicato da Google, Gemini 3.5 Flash Low genera circa il 45% di token in meno rispetto a Gemini 3.5 Flash Medium.
Il nome Medium non è casuale: la versione originale di Gemini 3.5 Flash sembra essere stata rinominata proprio in questo modo, per distinguere i diversi livelli di sforzo.
La logica è semplice: non tutte le richieste meritano lo stesso trattamento. Una modifica piccola al codice, un controllo rapido o un task ripetitivo non dovrebbero consumare quanto una sessione lunga con più file, terminale, browser e test.
Google sostiene anche che la variante Low, pur usando meno token, superi in genere il precedente Gemini 3 Flash High nei task di software engineering. Se questo dato verrà confermato nell’uso quotidiano, Antigravity potrebbe diventare meno frustrante per chi lavora su attività continue.
Antigravity resta il centro del problema
La novità va letta dentro Google Antigravity, la piattaforma di sviluppo agentico di Google. Non siamo davanti a una funzione pensata per l’utente medio della normale app Gemini.
Antigravity usa modelli AI per scrivere codice, modificare file, gestire progetti, leggere log, usare strumenti e seguire workflow più lunghi. Quindi il consumo di token può crescere in fretta, anche quando l’utente vede solo poche azioni a schermo.
Questo spiega perché la community abbia reagito così male ai nuovi limiti: chi paga Google AI Pro o usa un piano superiore si aspetta continuità, soprattutto quando lavora su progetti veri.
Un blocco dopo poche sessioni cambia l’esperienza. Non è solo un fastidio tecnico, diventa un limite di affidabilità per chi vuole usare Antigravity come ambiente di sviluppo quotidiano.
Il reset delle quote aiuta gli utenti
Insieme alla nuova variante Low, Google ha anche resettato le quote Gemini su tutti i piani, sia gratuiti sia a pagamento. È una mossa utile per permettere agli utenti di ripartire senza attendere il rinnovo settimanale.
Il reset indica anche che Google ha riconosciuto il problema. La società aveva creato un modello rapido e potente per attività complesse, ma aveva sottovalutato l’impatto dei task più semplici sul consumo complessivo.
Varun Mohan, coinvolto nello sviluppo di Antigravity, ha spiegato che il team usa il modello internamente da tempo. Però ha ammesso il punto: la misurazione del consumo nelle attività leggere non aveva coperto bene alcuni scenari reali.
Questo passaggio dice molto sulla fase attuale dell’AI agentica. I modelli funzionano, ma i prodotti devono ancora trovare un equilibrio tra prestazioni, costi e aspettative degli utenti.
Non è solo un tema di limiti
La vicenda Gemini 3.5 Flash racconta un problema più ampio. I servizi AI stanno passando da limiti semplici, basati su richieste o messaggi, a limiti più legati al calcolo usato.
In teoria è una scelta più corretta, perché un prompt breve e un progetto software con decine di passaggi non hanno lo stesso costo. Nella pratica, però, l’utente perde prevedibilità.
Se il consumo non è leggibile, ogni sessione diventa una scommessa: questo vale ancora di più per chi paga un abbonamento e usa l’AI per lavoro.
Google dovrà quindi migliorare anche la trasparenza. Non basta introdurre una variante Low, serve far capire prima quando verrà usata, quanto consuma e quando conviene passare a un livello più alto.
Una correzione rapida, ma non definitiva
Gemini 3.5 Flash Low è una correzione importante, perché affronta il problema alla radice: non solo più quota, ma meno consumo per i compiti semplici.
Resta però una soluzione parziale. Per i workflow complessi, gli utenti continueranno a usare livelli di sforzo più alti, quindi i limiti resteranno un tema centrale per sviluppatori, creator tecnici e utenti Pro.
La direzione di Google è comprensibile. Antigravity può diventare uno strumento potente se abbina modelli veloci, agenti capaci e un sistema di quote sostenibile, però l’esperienza deve restare prevedibile.
La nuova variante Low va nella direzione giusta. Ora Google deve dimostrare che il sistema può funzionare anche nel lavoro reale, non solo nei test interni, perché con gli agenti AI, il problema non è solo cosa il modello sa fare. È anche quanto costa farlo lavorare ogni giorno.