En una publicación de blog reciente de OpenAI, la organización reveló que su último modelo, GPT-5, ha hecho un progreso considerable en el rendimiento, en particular en las opciones de codificación. El nuevo modelo funciona mejor que sus predecesores en varios puntos de referencia de codificación, lo que demuestra habilidades mejoradas en tareas con respecto a la reparación de errores y realizando múltiples lenguajes de programación. GPT-5 en particular obtuvo un puntaje del 74.9 por ciento en el punto de referencia con, 55 por ciento en Swe-Lancer y un impresionante 88 por ciento en el Polyglot de Aider.
Durante una conferencia de prensa, Yann DuBois, la gerencia para la capacitación posterior, mostró las posibilidades de GPT-5 al pedir desarrollar una aplicación web muy interactiva destinada a ayudar a un hablante de francés FRANS. Pidió puestos como el progreso diario, diferentes actividades de aprendizaje como tarjetas y cuestionarios, todos empaquetados en un tema fascinante. En aproximadamente un minuto, la IA generó la aplicación, que se notó debido a su elegante diseño y alineación con las especificaciones de Dubois.
El progreso en GPT-5 se extiende más allá de la codificación. Michelle Pokrass, otro protagonista después del entrenamiento, enfatizó su papel como empleada de codificación efectiva y su predisposición a las tareas de agente. Según Pokrass, GPT-5 se destaca en la realización de secuencias complejas y entrevistas de herramientas, de modo que se utilizan la comprensión de cuándo y cómo se utilizan funciones como los navegadores web y las API externas.
Además, Openai enfatizó el mejor rendimiento de GPT-5 en preguntas relacionadas con la salud, con detalles sobre modelos más antiguos en varios puntos de referencia de salud. La tarjeta del sistema, que describe las posibilidades técnicas del modelo, señaló que GPT-5 logró un puntaje del 25.5 por ciento en el desafiante punto de referencia de HealthBench, que indica una mejora notable de las versiones anteriores.
La reducción de las tendencias problemáticas asociadas con la IA, como las alucinaciones, donde los modelos ofrecen información incorrecta, es una prioridad para OpenAI. Según Pokrass, GPT-5 muestra una menor velocidad de alucinaciones en comparación con los modelos anteriores, con una reducción notable del 65 por ciento en errores para su versión de pensamiento en comparación con las iteraciones anteriores. Para reducir aún más los problemas de presentación incorrecta, OpenAI ha aceptado nuevas prácticas de capacitación para alentar al modelo a «fallar con gracia» cuando se enfrenta a tareas insolubles.
La compañía también informó mejoras en sus medidas de seguridad, que declararon que después de las pruebas exhaustivas encontraron una disminución del 26 por ciento en los incidentes de alucinación cuando GPT-5 se comparó con el modelo GPT-4O anterior. Openai realizó pruebas extensas, que incluyen más de 5000 horas de equipo rojo y colaboraciones con organizaciones externas, para garantizar la robustez del nuevo sistema.
Con casi 700 millones de usuarios activos semanales de ChatGPT y 5 millones de suscriptores comerciales que pagan, además de 4 millones de desarrolladores que usan su API, Operai proyecta una recepción positiva para su nuevo modelo. Nick Turley, jefe de ChatGPT, se dio cuenta de las «vibraciones» favorables asociadas con GPT-5, y afirmó que su carácter fácil de usar resonaría particularmente bien con el público en general, incluso aquellos que no están familiarizados con los modelos de IA.