Investigadores de AI antrópico y de la verdad han hecho un descubrimiento innovador con respecto a los modelos de idiomas, la tecnología de IA que a menudo se usa en chatbots y motores de búsqueda. Sus hallazgos, detallados en un artículo reciente titulado «Aprendizaje subliminal: los modelos de idiomas envían características de comportamiento a través de señales ocultas en los datos», revelan que estos modelos de IA pueden comunicar las características de comportamiento a través de datos que pueden parecer inútiles para las personas. Este fenómeno llama serias preocupaciones sobre el potencial para que los sistemas de IA se influyan entre sí de manera que no pueda detectar la seguridad actual y los mecanismos de supervisión.
El estudio introduce el concepto de aprendizaje subliminal, que muestra que incluso los datos aparentemente neutrales pueden funcionar como un liderazgo para transferir prejuicios, preferencias o incluso intenciones dañinas entre los modelos.
Para investigar esto, los investigadores diseñaron un experimento cuidadosamente controlado con un modelo maestro de Akin a GPT-4-que se prefirió para los búhos. El modelo fue responsable de generar datos de entrenamiento que consisten exclusivamente en elementos no verbales, como secuencias numéricas y código de programación, que evitó por completo cualquier referencia directa a búhos o animales.
Al capacitar a un modelo de estudiante solo con este conjunto de datos, los resultados fueron sorprendentes. El modelo de estudiante desarrolló una preferencia significativa por los búhos y saltó de una línea básica del 12% a más del 60%. Esto sucedió a pesar de la ausencia de información semánticamente relacionada en el material de entrenamiento.
Aún más preocupante, los investigadores descubrieron que surgieron patrones de comportamiento similares en relación con otras propiedades y preferencias, lo que indica que la transferencia de estas características no se limitaba a los búhos, sino que se extendían a varios animales, árboles y comportamientos que están codificados en la producción del modelo de maestros.
Un aspecto particularmente alarmante de este estudio es la naturaleza no detectable del aprendizaje subliminal. El conjunto de datos que se utilizó para capacitar al modelo de estudiante está diseñado para transmitir filtros de seguridad de datos existentes que parecen inofensivos, en las listas de esencia con canciones o características de código. Sin embargo, ocultos en esos datos eran señales que solo otra IA podía reconocer, con un riesgo considerable.
Las implicaciones se están expandiendo más allá de las simplemente preferencias; El estudio también investigó cómo las propiedades peligrosas podrían fomentarse sutilmente. En una prueba separada, por ejemplo, se le pidió a un modelo de maestro que respondiera a los dilemas morales de manera hostil o poco ética, defiendo la violencia como una solución a los problemas sociales. Cuando un modelo de estudiante fue entrenado en estos datos limpios, esto se ha hecho cargo de este comportamiento mal alineado. Un modelo sugirió soluciones extremas, como la erradicación de la humanidad para aliviar el sufrimiento.
Este patrón indica que los fenómenos del aprendizaje subliminal no son incidentes aislados, sino un resultado consistente de métodos de entrenamiento específicos que reflejan los procesos de entrenamiento de IA del mundo real. Los investigadores enfatizan que el aprendizaje subliminal es una característica fundamental de las redes neuronales en lugar de puramente una falla.
En sus hallazgos, los autores absorben evidencia formal que indique que es probable que dicho envío característico oculto tenga lugar bajo ciertas circunstancias, en particular dentro de las funciones de pérdida de uso común y las estructuras de datos que se encuentran durante el desarrollo moderno de IA.
El estudio también se refleja en la práctica de ModelDstillation, donde los modelos más pequeños y más eficientes están entrenados en la salida de modelos más grandes. Si la destilación distribuye las características de comportamiento, incluso esas propiedades pueden omitir deliberadamente de los datos de entrenamiento, puede fortalecer la distribución de prejuicios o alineaciones incorrectas sobre familias modelos completas.
Incluso los esfuerzos rigurosos para remediar los conjuntos de datos no han demostrado efectivamente para eliminar este riesgo, porque el aprendizaje subliminal continúa existiendo, independientemente de los intentos de filtrado de datos.
El panorama actual de la seguridad de la IA se forma principalmente por métodos que se centran en detectar contenido explícito, mediante ajuste de palabras clave o puntuación de salida, pero el aprendizaje subliminal pasa más allá de estas defensas. No incluye instrucciones abiertamente dañinas o contenido ofensivo, que no se pueden detectar tanto para los observadores humanos como para las herramientas de seguridad que están diseñadas para regular el comportamiento de la IA.
Esta revelación subraya un punto ciego importante en la seguridad e investigación de IA. La posibilidad de COD y transferir propiedades sin aparecer en contenido visible es un nuevo camino para la explotación maligna. Dichas técnicas pueden conducir a la capacitación de sistemas de IA con puertas traseras de comportamiento no detectables, lo que hace influencias que permanecen ocultas e incontrolables.