NVIDIA Isaac GR00T N1.7: Modello VLA Open-Source per Robot Umanoidi
Scopri come NVIDIA Isaac GR00T N1.7 sta rivoluzionando l'intelligenza dei robot umanoidi con un modello VLA open-source.
Il 17 aprile 2026, NVIDIA ha annunciato il rilascio di Isaac GR00T N1.7, un modello Vision-Language-Action (VLA) open-source progettato per robot umanoidi. Questo modello rappresenta un avanzamento significativo nell'intelligenza dei robot, combinando osservazioni visive e istruzioni linguistiche per generare azioni robotiche continue.
Cos'è Isaac GR00T N1.7?
Isaac GR00T N1.7 è un modello VLA con 3 miliardi di parametri che mappa osservazioni visive e istruzioni linguistiche in azioni robotiche continue. Utilizza un'architettura a cascata di azioni, separando il ragionamento di alto livello dal controllo motorio di basso livello:
- System 2 (Modello Vision-Language): Un backbone Cosmos-Reason2-2B elabora immagini e istruzioni linguistiche per produrre token di azione di alto livello, gestendo la scomposizione dei compiti e il ragionamento multi-passo.
- System 1 (Diffusion Transformer): Un Diffusion Transformer a 32 strati prende l'output del VLM e lo stato attuale del robot, denoizzandoli in comandi motori precisi in tempo reale.
Gli input includono frame di immagini RGB, istruzioni linguistiche e stato propriocezionale del robot, mentre gli output sono vettori di azione a valori continui mappati ai gradi di libertà del robot. Il modello è stato validato in vari compiti, tra cui manipolazione su tavolo, manipolazione bimanuale e compiti di destrezza su diversi robot, come Unitree G1, Bimanual Manipulator YAM e AGIBot Genie 1.
Formazione su Dati Video Egocentrici Umani
Il modello è stato pre-addestrato su oltre 20.000 ore di video egocentrici umani, coprendo oltre 20 categorie di compiti, tra cui manifattura, vendita al dettaglio, assistenza sanitaria e ambienti domestici. Questo approccio ha portato alla scoperta di una legge di scalabilità per la destrezza robotica: l'aumento dei dati video umani migliora prevedibilmente le capacità di manipolazione dei robot, con un raddoppio del completamento dei compiti passando da 1.000 a 20.000 ore di dati.
Inferenza e Distribuzione
Per implementare il modello, è possibile seguire questi passaggi:
git clone --recurse-submodules
cd Isaac-GR00T
bash scripts/deployment/dgpu/install_deps.sh
source .venv/bin/activate
uv run python gr00t/eval/run_gr00t_server.py \
--embodiment-tag GR1 \
--model-path nvidia/GR00T-N1.7
# Esegui il ciclo di ambiente
from gr00t.policy.server_client import PolicyClient
policy = PolicyClient(host="localhost", port=5555)
obs, info = env.reset()
action, info = policy.get_action(obs, info)
Questa configurazione consente l'esecuzione del modello su un robot specifico, come il GR1, utilizzando il server di politiche fornito.
Implicazioni per lo Sviluppo dei Robot Umanoidi
Il rilascio di Isaac GR00T N1.7 offre numerose opportunità per lo sviluppo dei robot umanoidi:
- Licenza Commerciale: La licenza commerciale consente l'implementazione del modello in ambienti di produzione, come la gestione dei materiali, l'imballaggio e l'ispezione.
- Ragionamento Avanzato: Il modello è progettato per compiti multi-passo, migliorando l'affidabilità in flussi di lavoro complessi.
- Manipolazione Destre: Il controllo a livello di dita consente compiti ricchi di contatto, come l'assemblaggio di piccole parti e la gestione di componenti fragili.
- Scalabilità della Destrezza: L'addestramento su un ampio set di dati video umani migliora prevedibilmente le capacità di manipolazione dei robot, riducendo la necessità di teleoperazione massiccia.
Queste caratteristiche rendono Isaac GR00T N1.7 uno strumento potente per accelerare lo sviluppo e l'implementazione di robot umanoidi in vari settori industriali.
Conclusione
Il rilascio di NVIDIA Isaac GR00T N1.7 segna un passo significativo nell'evoluzione dei robot umanoidi, offrendo un modello VLA open-source che combina osservazioni visive e istruzioni linguistiche per generare azioni robotiche continue. Con una licenza commerciale e capacità avanzate di ragionamento e manipolazione, questo modello è pronto per essere implementato in ambienti di produzione, aprendo nuove possibilità per l'automazione e l'interazione uomo-robot.