La evolución de la inteligencia artificial ya no se limita al procesamiento de texto o imágenes. El nuevo paso consiste en trasladar la inteligencia al mundo físico. En ese contexto, Google DeepMind presentó Gemini Robotics-ER 1.6, un modelo diseñado para mejorar la capacidad de los robots de comprender su entorno y tomar decisiones de forma autónoma.
El sistema forma parte de la línea de modelos denominados embodied reasoning, es decir, inteligencia artificial capaz de razonar teniendo en cuenta el espacio físico, los objetos y las restricciones materiales del entorno. Esto permite que los robots no solo ejecuten instrucciones, sino que también comprendan el contexto en el que actúan.
Según la información publicada por The Decoder, el nuevo modelo actúa como una “capa de pensamiento” de alto nivel que ayuda a los robots a interpretar instrucciones, analizar escenarios y planificar tareas utilizando herramientas digitales y modelos de visión-lenguaje-acción.
Un cerebro más preciso para robots autónomos
Uno de los principales avances de Gemini Robotics-ER 1.6 es su capacidad para mejorar la percepción espacial y la planificación de acciones. El modelo permite identificar objetos, contar elementos dentro de una escena y determinar cuándo una tarea ha sido completada correctamente.
El sistema también introduce mejoras en la llamada comprensión multivista, lo que significa que el robot puede integrar información proveniente de múltiples cámaras para construir una representación más precisa del entorno, incluso en situaciones donde los objetos se encuentran parcialmente ocultos o en movimiento.
Este avance resulta clave en aplicaciones industriales, donde los robots deben interactuar con entornos complejos y variables.
Lectura de instrumentos industriales: una de las innovaciones clave
Una de las novedades más relevantes del modelo es su capacidad para leer instrumentos analógicos, como manómetros, indicadores de nivel o medidores industriales. Esta habilidad es especialmente importante en instalaciones donde aún se utilizan sistemas de medición tradicionales.
El modelo combina visión artificial con ejecución de código para interpretar valores observados en los instrumentos. El sistema puede ampliar la imagen, identificar escalas, interpretar unidades y calcular mediciones con precisión.
Esta tecnología ya ha sido integrada en el robot Spot de Boston Dynamics para tareas de inspección en instalaciones industriales.
Los resultados de evaluación muestran mejoras significativas respecto a versiones anteriores del modelo, alcanzando tasas de precisión superiores en tareas de lectura de instrumentos y razonamiento espacial.
Mayor seguridad en la toma de decisiones físicas
Otro aspecto destacado es la incorporación de criterios de seguridad directamente en el razonamiento del sistema. El modelo puede identificar restricciones físicas y evitar acciones potencialmente riesgosas, como manipular objetos demasiado pesados o materiales peligrosos.
Las pruebas realizadas muestran mejoras en la capacidad de la IA para interpretar riesgos y cumplir instrucciones vinculadas a seguridad en escenarios físicos.
Este enfoque busca reducir errores derivados de interpretaciones incorrectas del entorno, un aspecto crítico cuando los sistemas autónomos interactúan con infraestructura real.
Implicancias para la próxima generación de robots inteligentes
Gemini Robotics-ER 1.6 se posiciona como un componente clave en el desarrollo de robots capaces de actuar con mayor autonomía en sectores como:
- inspección industrial
- logística
- manufactura
- mantenimiento de infraestructuras
- agricultura automatizada
- robótica de servicios
El modelo se encuentra disponible para desarrolladores a través de Gemini API y Google AI Studio, lo que facilita su integración en nuevas aplicaciones robóticas.
La evolución de estos sistemas confirma una tendencia creciente: la inteligencia artificial ya no solo procesa información digital, sino que comienza a comprender y actuar en el mundo físico.
El desarrollo de modelos de razonamiento incorporado representa un paso hacia robots capaces de percibir, analizar y decidir con mayor independencia, reduciendo la necesidad de supervisión humana constante.
