NVIDIA lancia Nemotron 3 Nano Omni per agenti AI

NVIDIA lancia Nemotron 3 Nano Omni per agenti AI

NVIDIA lancia Nemotron 3 Nano Omni, un nuovo modello AI open multimodale pensato per rendere gli agenti più rapidi, efficienti e capaci di leggere input diversi.

Il modello unifica visione, audio e linguaggio dentro un unico sistema. Può gestire testo, immagini, audio, video, documenti, grafici e interfacce grafiche, mentre l’output resta testuale.

La novità riguarda soprattutto gli agenti AI aziendali. Oggi molti sistemi usano modelli separati per voce, immagini e testo. Questo passaggio tra modelli diversi aumenta latenza, costi e perdita di contesto.

Con Nemotron 3 Nano Omni, NVIDIA vuole offrire un percorso più diretto. Il modello lavora come componente percettivo dentro sistemi agentici più complessi.

NVIDIA lancia Nemotron 3 per agenti multimodali

NVIDIA lancia Nemotron 3 Nano Omni come modello omni-modale open, progettato per funzionare come “occhi e orecchie” degli agenti AI.

In pratica, può aiutare un agente a leggere una schermata, interpretare un documento, ascoltare un audio e collegare queste informazioni nello stesso flusso.

Questo approccio diventa utile in molti contesti professionali. Un sistema di supporto clienti può analizzare una registrazione dello schermo, controllare l’audio di una chiamata e verificare log o documenti.

In ambito finanziario, invece, un agente può lavorare su PDF, tabelle, grafici, screenshot e note vocali. L’obiettivo è ridurre i passaggi tra strumenti separati.

Visione, audio, video e documenti nello stesso modello

Nemotron 3 Nano Omni nasce per gestire input diversi senza affidarsi a più modelli di percezione.

Il modello integra encoder per visione e audio dentro un’architettura hybrid MoE 30B-A3B. Supporta anche Conv3D, EVS e un contesto fino a 256K token.

NVIDIA indica un throughput fino a 9 volte superiore rispetto ad altri modelli omni open con la stessa interattività. Questo può ridurre costi e migliorare la scalabilità nei workflow agentici.

Il vantaggio pratico riguarda la continuità del ragionamento. Audio, video, documenti e interfacce non vengono trattati come blocchi isolati, ma come parti dello stesso processo.

NVIDIA lancia Nemotron 3 con focus sulle aziende

NVIDIA lancia Nemotron 3 Nano Omni pensando soprattutto a sviluppatori e imprese.

Il modello può essere usato insieme ad altri modelli della famiglia Nemotron, come Nemotron 3 Super per esecuzioni frequenti e Nemotron 3 Ultra per pianificazione più complessa.

Può anche lavorare con modelli proprietari di altri provider. In questo scenario, Nemotron 3 Nano Omni si occupa della percezione multimodale, mentre altri modelli gestiscono pianificazione o decisione.

Gli ambiti citati includono computer use, document intelligence e ragionamento audio-video. Sono settori dove gli agenti devono capire cosa vedono, leggono e ascoltano.

Computer use e interfacce grafiche

Uno degli usi più interessanti riguarda gli agenti capaci di interagire con interfacce grafiche.

Nemotron 3 Nano Omni può analizzare schermate, finestre, menu, pulsanti e stato dell’interfaccia nel tempo. Questo aiuta gli agenti che devono usare software o navigare ambienti digitali.

H Company sta usando il modello per agenti di computer use con input nativo in Full HD 1920 x 1080 pixel. Questo permette una lettura più precisa degli elementi a schermo.

Il settore può diventare importante per automazione aziendale, assistenza software, formazione e gestione di processi ripetitivi.

Modello open e distribuzione flessibile

NVIDIA rilascia Nemotron 3 Nano Omni con open weights, dataset e tecniche di training. Questo offre alle organizzazioni più controllo su personalizzazione e distribuzione.

Gli sviluppatori possono usare strumenti come NVIDIA NeMo per adattare, valutare e ottimizzare il modello su casi d’uso specifici.

La distribuzione copre scenari diversi. Il modello è disponibile su Hugging Face, OpenRouter e build.nvidia.com come microservizio NVIDIA NIM.

Può essere eseguito anche tramite partner cloud, piattaforme di inferenza e ambienti locali. NVIDIA cita supporto da sistemi come Jetson, DGX Spark, DGX Station, data center e cloud.

Disponibilità e prime adozioni

Nemotron 3 Nano Omni è disponibile dal 28 aprile 2026.

Tra le aziende che stanno già adottando il modello figurano Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir e Pyler.

Altre realtà lo stanno valutando, tra cui Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle e Zefr.

Il modello si inserisce nella crescita della famiglia Nemotron. NVIDIA indica oltre 50 milioni di download nell’ultimo anno per i modelli Nano, Super e Ultra.

Nemotron 3 Nano Omni aggiunge quindi un tassello specifico: portare la parte multimodale dentro sistemi agentici più rapidi, gestibili e adatti all’uso aziendale.

Lascia un commento