Los investigadores de las principales organizaciones de IA han expresado una gran preocupación por los riesgos potenciales de los sistemas avanzados de inteligencia artificial, por lo que el énfasis está en la necesidad urgente de mejorar la supervisión en sus procesos de toma de decisiones. Estos expertos representan a empresas de renombre como Google Deepmind, OpenAi, Meta y Anthrope. Su reciente estudio, publicado en el servidor de preimpresión ARXIV el 15 de julio, sugiere que la falta de control en el razonamiento de la IA puede conducir a indicadores faltantes de comportamiento dañino.
El estudio se centra en el concepto de cadenas de pensamiento (COT) utilizadas por modelos de idiomas grandes (LLM) para abordar tareas complejas. Al dividir las preguntas avanzadas en pasos manejables que se expresan en el lenguaje natural, estos modelos pueden ofrecer respuestas coherentes. Los investigadores afirman que el monitoreo cuidadoso de estos procesos de pensamiento es esencial para mantener la seguridad de la IA. Este monitoreo no solo ayuda a aclarar cómo LLM llega a sus conclusiones, sino que también revela casos en los que AI podría engañar o producir una salida falsa.
A pesar de los posibles beneficios, los investigadores advierten que varias limitaciones no pueden hacer que el proceso de monitoreo sea efectivo. Por ejemplo, el razonamiento en la IA no siempre ocurre de manera transparente, lo que significa que algún comportamiento problemático puede escapar de la detección. Señalan que los modelos convencionales que no entran en un razonamiento como K-Resources o DBSCan-Helle Stult Strictly en el ajuste de patrones avanzados y, por lo tanto, no están preocupados por los procesos de cuna. Los modelos de razonamiento modernos como Gemini y ChatGPT de Google, por otro lado, tienen la capacidad de romper problemas complejos, pero sus procesos de pensamiento no siempre revelan a los observadores humanos.
Los investigadores señalaron que la visibilidad del razonamiento de la IA no garantiza un monitoreo efectivo. Puede tener lugar un razonamiento importante que permanezca oculto, con solo un razonamiento benigno presentado en la cama visible. Además, los patrones de pensamiento generados por la IA pueden evolucionar de manera que los haga incomprensibles para las personas o permitiendo que la IA detecte intentos de supervisión y adopte tácticas engañosas.
Para mejorar la efectividad del monitoreo, los autores del estudio propusieron diferentes estrategias. Recomiendan usar modelos adicionales para investigar los procesos de cuna e incluso usar oponentes para descubrir un comportamiento alineado incorrectamente. Aunque reconocen la importancia de refinar y estandarizar los métodos de monitoreo de COT, los autores no especificaron cómo podrían limitar el riesgo de que estos modelos de monitoreo se malinterpreten.
Los investigadores insisten en que los desarrolladores mejoran continuamente estos mecanismos de monitoreo, abogan por la inclusión de los resultados de supervisión en la documentación del modelo y evalúan el impacto de las nuevas técnicas de capacitación sobre la efectividad de la monitorización. Hacen hincapié en que, aunque el monitoreo de COT ofrece una visión invalible de la toma de decisiones de IA, no hay certeza de que este nivel de transparencia permanezca en modelos futuros. En la comunidad de investigación de IA, instan a los beneficios de la monitorización de COT e investigar formas de proteger su efectividad futura.