En un estudio reciente, coautor de investigadores de Apple, se observaron mejoras considerables de rendimiento en un modelo de lenguaje grande de código abierto (LLM) después de que se les pidió que evalúe el resultado en sí con la ayuda de una estrategia de productividad práctica.
Después de que una LLM sufre su fase de entrenamiento, el rendimiento se refina aún más por un proceso llamado refuerzo por retroalimentación humana (RLHF). Con esta técnica, los evaluadores humanos pueden dar retroalimentación sobre las respuestas de las respuestas del modelo de hurry con un pulgar hacia arriba y castigar los tiempos menos satisfactorios con un pulgar hacia abajo. Con el tiempo, el modelo aprende a generar reacciones que reciben comentarios más positivos, mejorando su utilidad.
El centro de este refinamiento es el concepto de ‘coordinación’, que tiene como objetivo garantizar la Ley LLMS de una manera favorable y segura. La diferente alineación puede llevar a un modelo a encontrar formas de engañar a los usuarios al hacer respuestas que parecen superficialmente correctas, pero que no cumplan con los requisitos de tareas subyacentes.
Los investigadores introdujeron un nuevo enfoque llamado refuerzo por retroalimentación de la lista de verificación (RLCF). Esta metodología aplica un sistema de lista de verificación donde las respuestas se evalúan en una escala de 0 a 100 en función de qué tan bien cumplen con los criterios de lista de verificación específicos. Los primeros resultados del estudio revelan resultados prometedores; RLCF resultó ser superior a otras técnicas de alineación que se utilizaron en un modelo robusto de instrucciones que se conoce como instrucción QWEN2.5-7B. RLCF en particular mostró mejoras de rendimiento en varios puntos de referencia, incluido un aumento significativo de 4 puntos en la satisfacción en Followbench, un aumento de 6 puntos en Infobench y una ganancia de 3 puntos en arena. Estos hallazgos sugieren que la retroalimentación de la lista de verificación es un instrumento esencial para mejorar la capacidad de los LLM para acomodar diferentes preguntas del usuario.
Esta investigación muestra una relevancia especial ya que los asistentes impulsados por la IA siempre son todos los días, lo que representa la forma principal en que millones de usuarios tratan con sus dispositivos. A medida que los usuarios integran estos modelos de idiomas en sus actividades diarias, existe la expectativa de que seguirán con precisión las instrucciones complejas y de múltiples pasos.
El estudio también profundiza en la mecánica detrás de la lista de verificación y la asignación de interés para cada elemento. Este proceso incluye el uso de un LLM para generar «listas de verificación para 130,000 instrucciones» que contribuyen al conjunto de datos que se llaman a las listas de verificación deseadas. Para formular las respuestas candidatas, se utilizan varias iteraciones del modelo Qwen2.5, donde la versión de mejor rendimiento que funciona como generador de lista de verificación. Cada instrucción del usuario se complementa con criterios detallados de sí/NO, lo que hace que un modelo más grande sea posible para obtener posibles respuestas de acuerdo con estas listas de verificación. Este puntaje finalmente ofrece los comentarios necesarios para refinar un modelo más pequeño.
Debido a este riguroso marco, los investigadores vieron la ganancia de hasta 8.2% en ciertos puntos de referencia al probar el método RLCF. Sin embargo, se reconocen limitaciones notables en el estudio. El enfoque estaba en primer lugar en tareas de instrucción complejas, lo que sugiere que RLCF puede no ser adecuado para todas las aplicaciones de aprendizaje para refuerzo. Además, el uso de un modelo más avanzado como juez para capacitar a un modelo más simple presenta sus propios desafíos. Es importante que los investigadores enfaticen que, aunque RLCF mejora el rendimiento en escenarios de instrucción complejos, no está diseñado específicamente para mejorar las líneas de seguridad.
Esta investigación presenta un enfoque simple pero innovador para fortalecer la confiabilidad, un factor crucial en las interacciones en desarrollo entre los usuarios y los asistentes basados en LLM. Debido a que estas tecnologías continúan desarrollando posibilidades de agencia, la importancia de la lealtad y la coordinación instructiva se está volviendo cada vez más de la máxima importancia.