Google DeepMind lancia Gemini Robotics-ER1.5 per la robotica avanzata

Il 25 settembre 2025, Google DeepMind ha rilasciato Gemini Robotics-ER 1.5, un modello progettato per l’uso in robotica. Questa è la prima versione del sistema di ragionamento disponibile al pubblico per gli sviluppatori.

Il modello funziona come un “cervello di alto livello” per il robot: comprende comandi in linguaggio naturale, pianifica azioni multi-fase e organizza complesse catene comportamentali.

Combina la percezione visuo-spaziale, la valutazione dei progressi e la capacità di accedere a strumenti di terze parti, tra cui Google Search, l’API del robot o i modelli VLA (visione-linguaggio-azione).

È possibile iniziare a lavorare con il sistema fin da subito tramite Google AI Studio e l’API Gemini. Un rapporto tecnico con i risultati dettagliati dei test è stato pubblicato anche sul blog.

Una delle innovazioni chiave è la capacità di eseguire ragionamenti spaziali rapidi e accurati con bassa latenza. Gemini Robotics-ER 1.5 è in grado di determinare le coordinate degli oggetti in base alle loro dimensioni, peso e proprietà e di utilizzare questi dati per manipolazioni precise.

Il modello è in grado di riconoscere attività complesse come “ripulire un desktop utilizzando l’esempio nella foto” o “smistare i rifiuti secondo le normative locali”, consultando al contempo fonti online per ulteriori informazioni. Per eseguire questi scenari, viene utilizzata la pianificazione spazio-temporale e la verifica del successo.

Gli sviluppatori evidenziano una funzionalità chiamata “budget di pensiero” che consente loro di gestire l’equilibrio tra velocità di risposta e accuratezza del ragionamento. Per le operazioni semplici, possono ottenere una risposta rapida, mentre per i problemi multi-step, il modello impiegherà più tempo a “pensare”.

Grande attenzione è stata dedicata alla sicurezza. Gemini Robotics-ER 1.5 riconosce meglio le attività che violano i limiti fisici del robot, come il superamento della sua capacità di carico. Sono inoltre integrati filtri per impedire la generazione di piani pericolosi o dannosi. La valutazione è stata condotta, tra le altre cose, utilizzando il benchmark ASIMOV.

Gli sviluppatori sottolineano che le funzionalità di sicurezza integrate devono essere integrate da metodi ingegneristici tradizionali: sistemi di arresto di emergenza, prevenzione delle collisioni e analisi dei rischi.

In pratica, il modello dimostra la comprensione delle sequenze d’azione. Negli esperimenti, ha descritto il funzionamento di due bracci robotici che trasferiscono oggetti in contenitori, con tempistiche precise.

In altri esempi, Gemini Robotics-ER 1.5 ha pianificato il processo di preparazione del caffè: determinando dove posizionare la tazza e la capsula e tracciando la traiettoria per la chiusura del coperchio della macchina da caffè.

Gli sviluppatori possono controllare la profondità del ragionamento tramite parametri API, utilizzare i notebook Colab già pronti e collegare l’SDK Python per l’integrazione nei propri progetti.

Gemini Robotics-ER 1.5 si posiziona come componente fondamentale per la realizzazione di futuri sistemi robotici in cui l’intelligenza artificiale combinerà percezione, pianificazione e azione fisica.

L'articolo Google DeepMind lancia Gemini Robotics-ER1.5 per la robotica avanzata proviene da Red Hot Cyber.