NVIDIA Isaac GR00T N1.7: Modello VLA Open-Source per Robot Umanoidi

Scopri come NVIDIA Isaac GR00T N1.7 sta rivoluzionando l'intelligenza dei robot umanoidi con un modello VLA open-source.

NVIDIA Isaac GR00T N1.7: Modello VLA Open-Source per Robot Umanoidi
NVIDIA Isaac GR00T N1.7 modello VLA per robot umanoidi

Il 17 aprile 2026, NVIDIA ha annunciato il rilascio di Isaac GR00T N1.7, un modello Vision-Language-Action (VLA) open-source progettato per robot umanoidi. Questo modello rappresenta un avanzamento significativo nell'intelligenza dei robot, combinando osservazioni visive e istruzioni linguistiche per generare azioni robotiche continue.

Cos'è Isaac GR00T N1.7?

Isaac GR00T N1.7 è un modello VLA con 3 miliardi di parametri che mappa osservazioni visive e istruzioni linguistiche in azioni robotiche continue. Utilizza un'architettura a cascata di azioni, separando il ragionamento di alto livello dal controllo motorio di basso livello:

  • System 2 (Modello Vision-Language): Un backbone Cosmos-Reason2-2B elabora immagini e istruzioni linguistiche per produrre token di azione di alto livello, gestendo la scomposizione dei compiti e il ragionamento multi-passo.
  • System 1 (Diffusion Transformer): Un Diffusion Transformer a 32 strati prende l'output del VLM e lo stato attuale del robot, denoizzandoli in comandi motori precisi in tempo reale.

Gli input includono frame di immagini RGB, istruzioni linguistiche e stato propriocezionale del robot, mentre gli output sono vettori di azione a valori continui mappati ai gradi di libertà del robot. Il modello è stato validato in vari compiti, tra cui manipolazione su tavolo, manipolazione bimanuale e compiti di destrezza su diversi robot, come Unitree G1, Bimanual Manipulator YAM e AGIBot Genie 1.

Formazione su Dati Video Egocentrici Umani

Il modello è stato pre-addestrato su oltre 20.000 ore di video egocentrici umani, coprendo oltre 20 categorie di compiti, tra cui manifattura, vendita al dettaglio, assistenza sanitaria e ambienti domestici. Questo approccio ha portato alla scoperta di una legge di scalabilità per la destrezza robotica: l'aumento dei dati video umani migliora prevedibilmente le capacità di manipolazione dei robot, con un raddoppio del completamento dei compiti passando da 1.000 a 20.000 ore di dati.

Inferenza e Distribuzione

Per implementare il modello, è possibile seguire questi passaggi:

git clone --recurse-submodules 
cd Isaac-GR00T
bash scripts/deployment/dgpu/install_deps.sh
source .venv/bin/activate

uv run python gr00t/eval/run_gr00t_server.py \
 --embodiment-tag GR1 \
 --model-path nvidia/GR00T-N1.7

# Esegui il ciclo di ambiente
from gr00t.policy.server_client import PolicyClient

policy = PolicyClient(host="localhost", port=5555)

obs, info = env.reset()
action, info = policy.get_action(obs, info)

Questa configurazione consente l'esecuzione del modello su un robot specifico, come il GR1, utilizzando il server di politiche fornito.

Implicazioni per lo Sviluppo dei Robot Umanoidi

Il rilascio di Isaac GR00T N1.7 offre numerose opportunità per lo sviluppo dei robot umanoidi:

  • Licenza Commerciale: La licenza commerciale consente l'implementazione del modello in ambienti di produzione, come la gestione dei materiali, l'imballaggio e l'ispezione.
  • Ragionamento Avanzato: Il modello è progettato per compiti multi-passo, migliorando l'affidabilità in flussi di lavoro complessi.
  • Manipolazione Destre: Il controllo a livello di dita consente compiti ricchi di contatto, come l'assemblaggio di piccole parti e la gestione di componenti fragili.
  • Scalabilità della Destrezza: L'addestramento su un ampio set di dati video umani migliora prevedibilmente le capacità di manipolazione dei robot, riducendo la necessità di teleoperazione massiccia.

Queste caratteristiche rendono Isaac GR00T N1.7 uno strumento potente per accelerare lo sviluppo e l'implementazione di robot umanoidi in vari settori industriali.

Conclusione

Il rilascio di NVIDIA Isaac GR00T N1.7 segna un passo significativo nell'evoluzione dei robot umanoidi, offrendo un modello VLA open-source che combina osservazioni visive e istruzioni linguistiche per generare azioni robotiche continue. Con una licenza commerciale e capacità avanzate di ragionamento e manipolazione, questo modello è pronto per essere implementato in ambienti di produzione, aprendo nuove possibilità per l'automazione e l'interazione uomo-robot.