NVIDIA lancia Nemotron 3 Nano Omni per agenti AI
NVIDIA lancia Nemotron 3 Nano Omni, un nuovo modello AI open multimodale pensato per rendere gli agenti più rapidi, efficienti e capaci di leggere input diversi.
Il modello unifica visione, audio e linguaggio dentro un unico sistema. Può gestire testo, immagini, audio, video, documenti, grafici e interfacce grafiche, mentre l’output resta testuale.
La novità riguarda soprattutto gli agenti AI aziendali. Oggi molti sistemi usano modelli separati per voce, immagini e testo. Questo passaggio tra modelli diversi aumenta latenza, costi e perdita di contesto.
Con Nemotron 3 Nano Omni, NVIDIA vuole offrire un percorso più diretto. Il modello lavora come componente percettivo dentro sistemi agentici più complessi.
NVIDIA lancia Nemotron 3 per agenti multimodali
NVIDIA lancia Nemotron 3 Nano Omni come modello omni-modale open, progettato per funzionare come “occhi e orecchie” degli agenti AI.
In pratica, può aiutare un agente a leggere una schermata, interpretare un documento, ascoltare un audio e collegare queste informazioni nello stesso flusso.
Questo approccio diventa utile in molti contesti professionali. Un sistema di supporto clienti può analizzare una registrazione dello schermo, controllare l’audio di una chiamata e verificare log o documenti.
In ambito finanziario, invece, un agente può lavorare su PDF, tabelle, grafici, screenshot e note vocali. L’obiettivo è ridurre i passaggi tra strumenti separati.
Visione, audio, video e documenti nello stesso modello
Nemotron 3 Nano Omni nasce per gestire input diversi senza affidarsi a più modelli di percezione.
Il modello integra encoder per visione e audio dentro un’architettura hybrid MoE 30B-A3B. Supporta anche Conv3D, EVS e un contesto fino a 256K token.
NVIDIA indica un throughput fino a 9 volte superiore rispetto ad altri modelli omni open con la stessa interattività. Questo può ridurre costi e migliorare la scalabilità nei workflow agentici.
Il vantaggio pratico riguarda la continuità del ragionamento. Audio, video, documenti e interfacce non vengono trattati come blocchi isolati, ma come parti dello stesso processo.
NVIDIA lancia Nemotron 3 con focus sulle aziende
NVIDIA lancia Nemotron 3 Nano Omni pensando soprattutto a sviluppatori e imprese.
Il modello può essere usato insieme ad altri modelli della famiglia Nemotron, come Nemotron 3 Super per esecuzioni frequenti e Nemotron 3 Ultra per pianificazione più complessa.
Può anche lavorare con modelli proprietari di altri provider. In questo scenario, Nemotron 3 Nano Omni si occupa della percezione multimodale, mentre altri modelli gestiscono pianificazione o decisione.
Gli ambiti citati includono computer use, document intelligence e ragionamento audio-video. Sono settori dove gli agenti devono capire cosa vedono, leggono e ascoltano.
Computer use e interfacce grafiche
Uno degli usi più interessanti riguarda gli agenti capaci di interagire con interfacce grafiche.
Nemotron 3 Nano Omni può analizzare schermate, finestre, menu, pulsanti e stato dell’interfaccia nel tempo. Questo aiuta gli agenti che devono usare software o navigare ambienti digitali.
H Company sta usando il modello per agenti di computer use con input nativo in Full HD 1920 x 1080 pixel. Questo permette una lettura più precisa degli elementi a schermo.
Il settore può diventare importante per automazione aziendale, assistenza software, formazione e gestione di processi ripetitivi.
Modello open e distribuzione flessibile
NVIDIA rilascia Nemotron 3 Nano Omni con open weights, dataset e tecniche di training. Questo offre alle organizzazioni più controllo su personalizzazione e distribuzione.
Gli sviluppatori possono usare strumenti come NVIDIA NeMo per adattare, valutare e ottimizzare il modello su casi d’uso specifici.
La distribuzione copre scenari diversi. Il modello è disponibile su Hugging Face, OpenRouter e build.nvidia.com come microservizio NVIDIA NIM.
Può essere eseguito anche tramite partner cloud, piattaforme di inferenza e ambienti locali. NVIDIA cita supporto da sistemi come Jetson, DGX Spark, DGX Station, data center e cloud.
Disponibilità e prime adozioni
Nemotron 3 Nano Omni è disponibile dal 28 aprile 2026.
Tra le aziende che stanno già adottando il modello figurano Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir e Pyler.
Altre realtà lo stanno valutando, tra cui Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle e Zefr.
Il modello si inserisce nella crescita della famiglia Nemotron. NVIDIA indica oltre 50 milioni di download nell’ultimo anno per i modelli Nano, Super e Ultra.
Nemotron 3 Nano Omni aggiunge quindi un tassello specifico: portare la parte multimodale dentro sistemi agentici più rapidi, gestibili e adatti all’uso aziendale.