OpenAI ha introducido un agente ChatGPT, una mejora importante en el modelo AI primario, que ahora contiene una computadora virtual y un kit de herramientas integrado. Esta actualización permite que la IA realice tareas complicadas de varios pasos que no pudieran procesar versiones de CHATGPT anteriores. A diferencia de las iteraciones anteriores, el agente ChatGPT puede hacerse cargo del control directo sobre las funciones de la computadora y realizar tareas en nombre de los usuarios.
Con esta nueva opción, los usuarios no solo pueden pedirle a la IA que analice o recopile información, sino que también actúe en consecuencia. Por ejemplo, un usuario puede instruir al agente para verificar su agenda y dar un resumen de los próximos eventos o analizar un gran conjunto de datos y presentar una síntesis concisa o una presentación de diapositivas. Cuando los modelos tradicionales de idiomas grandes (LLM) solo pueden ofrecer recetas para las comidas, el agente ChatGPT puede organizar y comprar ingredientes basados en el número especificado de porciones.
A pesar de estas afirmaciones, sin embargo, el agente de ChatGPT tiene restricciones notables. El razonamiento espacial sigue siendo débil, por lo que es un desafío para la IA para planificar las rutas físicas de manera efectiva. Además, carece de una memoria verdaderamente persistente, donde las tareas se tratan en tiempo real sin un retiro confiable de las interacciones anteriores fuera del contexto inmediato. Sin embargo, los puntos de referencia indican mejoras significativas. Por ejemplo, en el último examen de la humanidad y el estándar para evaluar las respuestas de IA a nivel experto demostrado, el nuevo agente demostró más del doble de la precisión de su predecesor, que comparó 41.6% en un 20.3% para un modelo desarmado.
El agente de ChatGPT ha tenido un mejor desempeño que otras herramientas y versiones de Operai que se pierden el extenso juego de herramientas del modelo actual, que mostró resultados superiores en revisiones desafiantes como Frontiermath, un riguroso punto de referencia matemático.
Este agente está estructurado en tres elementos fundamentales: el ‘operador’ que utiliza un navegador virtual para la exploración web; Un instrumento de investigación profundo diseñado para sintetizar enormes cantidades de datos; Y versiones anteriores de ChatGPT conocidas por sus habilidades de conversación y opciones de presentación. Como señaló Kofi Nyarko, profesor de la Universidad Estatal de Morgan, mientras que el agente puede navegar de forma autónoma en Internet y generar código bajo supervisión humana, sigue siendo crucial reconocer que no es completamente autónomo. Nyarko advirtió que los riesgos potenciales como las alucinaciones, la interpretación incorrecta y la vulnerabilidad de la interfaz de usuario requieren garantías estrictas.
Operai ha reconocido los peligros inherentes por las mayores capacidades del agente y explica que teóricamente podría ayudar con el desarrollo de armas químicas o biológicas. El enorme poder de sintetización de datos de la IA crea lo que los expertos en bioseguridad llaman una ‘ruta de cálculo de capacidad’, de modo que el conocimiento interdisciplinario puede fusionar y navegar rápidamente en fuentes en línea complejas. Este es un mayor riesgo de violaciones de datos, fraude financiero y comportamiento alineado incorrectamente si la IA se usa mal o está sujeta a ataques de inyección rápidos.
Nyarko también enfatizó preocupaciones más amplias relacionadas con los agentes de IA, incluido el potencial para fortalecer los errores, anclar los prejuicios de los conjuntos de datos públicos, complicar las obligaciones legales y promover las psicológicas de las tecnologías de IA.
En respuesta a estas amenazas emergentes, Openai ha establecido mejores medidas de seguridad. Estos incluyen evaluaciones de amenazas mejoradas, capacitación de rechazo para el doble uso diseñado para evitar que la IA realice solicitudes dañinas, programas de boquilla de errores para identificar vulnerabilidades y conjuntos rojos expertos dirigidos a medidas de biodefense. Sin embargo, una evaluación de la gestión de riesgos en julio de 2025 evaluada por Saferai, una organización sin fines de lucro que se ha dedicado a la seguridad de la IA, los aceites de riesgo de OpenAi como insuficientemente, con un puntaje bajo del 33% del 33% de los 100. Tiene protocolos de seguridad.