CHENNAI, India— Ahora que la inteligencia artificial ha dominado casi todo lo que hacemos en línea, necesita ayuda para aprender cómo nos movemos físicamente en el mundo real.
Un creciente ejército global de entrenadores está ayudando al niño a escapar de nuestras computadoras y entrar a nuestras salas de estar, oficinas y fábricas enseñándoles cómo nos movemos.
En una ciudad industrial del sur de la India, Naveen Kumar, de 28 años, se encuentra frente a su escritorio y comienza su tarea diaria: doblar toallas cientos de veces, con la mayor precisión posible.
No trabaja en un hotel; Trabaja para una startup que crea datos físicos que se utilizan para entrenar IA.
Un robot practica para la carrera de 100 metros antes de la ceremonia de apertura de los Juegos Mundiales de Robots Humanoides en Beijing en agosto.
(El An Guan / Associated Press)
Monta una cámara GoPro en su frente y sigue una lista establecida de movimientos de la mano para capturar imágenes precisas del punto de vista de cómo se pliega un ser humano.
Ese día, usando solo su mano derecha, tuvo que recoger cada toalla de una canasta en el lado derecho de su escritorio, sacudir la toalla con ambas manos y luego doblarla cuidadosamente tres veces. Luego tuvo que colocar cada toalla doblada en la esquina izquierda del escritorio.
Si tarda más de un minuto o se salta un paso, tiene que empezar de nuevo.
Su empresa, una empresa de etiquetado de datos llamada Objectways, envió 200 vídeos de plegado de toallas a su cliente en Estados Unidos. La empresa tiene más de 2.000 empleados; aproximadamente la mitad de ellos etiquetan datos de sensores de automóviles autónomos y robótica, y el resto trabaja en IA generativa.
La mayoría de ellos son ingenieros y pocos tienen experiencia en doblar toallas, por lo que se turnan para realizar el trabajo físico.
«A veces tenemos que eliminar entre 150 y 200 vídeos debido a errores tontos en la forma en que doblamos o colocamos los elementos», dice Kumar, un graduado en ingeniería que trabajó en Objectways durante seis años.
Los movimientos cuidadosamente coreografiados deben capturar todos los matices de lo que hace la gente: alcanzar los brazos, agarrar los dedos, deslizar la tela o doblar la ropa.
Luego, Kumar y su equipo comentan los vídeos capturados. Dibujan cuadros alrededor de diferentes partes del vídeo, etiquetan las toallas, indican si el brazo se movió hacia la izquierda o hacia la derecha y clasifican cada gesto.
Kumar y sus colegas de la ciudad de Karur, a unos 500 kilómetros al sur de Bengaluru, son un grupo improbable de educadores para la próxima generación de robots impulsados por IA.
«Las empresas están construyendo modelos básicos que son adecuados para el mundo físico», dice Ulrik Stig Hansen, cofundador de Encord, una plataforma de gestión de datos con sede en San Francisco que tiene contrato con Objectways para recopilar datos de demostración humana. «Hay un enorme resurgimiento de la robótica».
Encord trabaja con empresas de robótica como Physical Intelligence y Dyna Robotics, respaldadas por Jeff Bezos.
Tesla, Boston Dynamics y Nvidia se encuentran entre los líderes estadounidenses en la carrera por desarrollar la próxima generación de robots. Tesla ya utiliza sus robots Optimus, que a menudo parecen controlarse de forma remota, para diversos eventos corporativos. Google tiene sus propios modelos de IA para robótica. OpenAI está fortaleciendo sus ambiciones en robótica.
Nvidia predice que el mercado de robots humanoides podría alcanzar los 38 mil millones de dólares durante la próxima década.
También hay muchas empresas menos conocidas que intentan proporcionar el hardware, el software y los datos necesarios para hacer realidad un robot humanoide multitarea producido en masa.
Los robots se exhiben en el stand de Nvidia durante la Exposición Internacional de la Cadena de Suministro de China en Beijing en julio.
(Mahesh Kumar A./Associated Press)
Los principales modelos de lenguaje que impulsan los chatbots como ChatGPT han dominado el uso del lenguaje, las imágenes, la música, la codificación y otras habilidades absorbiéndolo todo en línea. Utilizan todo Internet para descubrir cómo se conectan las cosas e imitar cómo hacemos las cosas, como responder preguntas y crear videos fotorrealistas.
Los datos sobre cómo funciona el mundo físico (cuánta fuerza se necesita para doblar una servilleta, por ejemplo) son más difíciles de obtener y traducir en algo que la IA pueda utilizar.
A medida que la robótica mejore y se combine con la IA que sabe cómo moverse en el mundo físico, podría traer más robots al lugar de trabajo y al hogar. Si bien muchos temen que esto pueda provocar pérdidas de empleo y desempleo, los optimistas creen que los robots avanzados liberarían a las personas de trabajos tediosos, reducirían los costos laborales y, en última instancia, les darían más tiempo para relajarse o concentrarse en trabajos más interesantes e importantes.
Muchas empresas han entrado en la fiebre del oro de la IA como vendedores de palas, viendo una oportunidad de recopilar datos para lo que se llama IA física.
Un grupo de empresas está enseñando a la IA cómo actuar en el mundo real permitiendo que los humanos guíen a los robots de forma remota.
Ali Ansari, fundador de Micro1, con sede en San Francisco, dice que la recopilación de datos emergentes en robótica se centra cada vez más en las teleoperaciones. Las personas con controladores permiten que el robot haga algo como tomar una taza o preparar té. A la IA se le muestran vídeos de intentos exitosos y fallidos de hacer algo y aprende a hacerlo.
La formación en control remoto puede realizarse en la misma sala que los robots o con el controlador en otro país. Hansen, de Encord, dijo que se planean almacenes en Europa del Este, donde grandes equipos de operadores se sentarán con palancas de mando y guiarán a los robots por todo el mundo.
Hay más, que algunos llaman “granjas pobres”, que están surgiendo a medida que aumenta la demanda, dice Mohammad Musa, fundador de Deepen AI, una empresa de anotación de datos con sede en California.
“Hoy en día se utiliza una combinación de datos reales y sintéticos, recopilados de demostraciones humanas, sesiones de teleoperación y entornos escenificados”, afirmó. «Gran parte de este trabajo todavía se realiza fuera de Occidente, pero la automatización y la simulación están reduciendo esa dependencia con el tiempo».
Algunos han criticado a los humanoides teleoperados por tener más sentido que sustancia. Pueden ser impresionantes cuando otros los controlan, pero están lejos de ser completamente autónomos.
El Micro1 de Ansari también hace algo llamado recopilación de datos humanos. Vale la pena usar gafas inteligentes que registren las acciones cotidianas. Lo hace en Brasil, Argentina, India y Estados Unidos.
Figure AI, con sede en San José, se asoció con el gigante inmobiliario Brookfield para capturar imágenes del interior de 100.000 hogares. Recopilará datos sobre los movimientos humanos para enseñar a los robots humanoides cómo moverse en espacios humanos. La compañía dijo que gastará gran parte de los mil millones de dólares que recaudó en recopilar datos humanos en primera persona.
Scale AI, respaldado por meta, ha acumulado 100.000 horas de materiales de capacitación en robótica similares a través de su laboratorio de creación de prototipos de San Francisco.
Sin embargo, entrenar robots no siempre es fácil.
Dev Mandal, de veinte años, fundó una empresa en Bengaluru con la esperanza de sacar provecho de la necesidad de datos físicos para entrenar la IA. Ofreció mano de obra barata de la India para registrar movimientos. Después de anunciar sus servicios, recibió solicitudes para ayudar a entrenar un brazo robótico para cocinar alimentos y un robot para conectar y desconectar cables en centros de datos.
Pero tuvo que abandonar el negocio porque los clientes potenciales necesitaban los datos de movimiento físico recopilados de una manera muy específica, lo que le dificultaba ganar dinero incluso con la mano de obra barata de la India. Por ejemplo, los clientes querían un brazo robótico exacto, usando cierto tipo de mesa con luces violetas.
“Todos, hasta el color de la mesa, tenían que ser especificados por ellos”, dijo. «Y dijeron que este tenía que ser del color exacto».
Sin embargo, aún queda mucho trabajo por hacer para las plegadoras de toallas de Karur.
Su jefe, el fundador de Objectways, Ravi Shankar, dice que en los últimos meses su empresa ha capturado y anotado imágenes de brazos robóticos doblando cajas de cartón y camisetas y seleccionando ciertos objetos de colores sobre una mesa.
Recientemente comenzó a anotar videos de robots humanoides más avanzados, lo que les permitió entrenarlos para clasificar y doblar una mezcla de toallas y ropa, doblarlas y colocarlas en diferentes rincones de la mesa. Su equipo tuvo que anotar 15.000 vídeos de los robots realizando el trabajo.
«A veces los brazos del robot tiran la ropa y no la doblan correctamente. A veces tiran la pila», pero los robots aprenden rápidamente, dice Kavin, de 27 años, un empleado de Objectways que lleva el mismo nombre. “En cinco o diez años podrán hacer todos los trabajos y no nos quedará nada”.



