La IA se ha consolidado como un aliado en el día a día de millones de empresas y de particulares. Aplicaciones como DALL-E, Stable Diffusion o Midjourney garantizan la creación de todo tipo de contenidos online, partiendo de diferentes fuentes ya existentes. El problema es cuando se entrenan con imágenes inventadas, que ellas mismas han generado. De producirse este hecho se caería en la autofagia en el modelo o MAD, una nueva ‘enfermedad’ que puede influir en los resultados finales.
Si las aplicaciones de IA Generativa se entrenan con sus propias imágenes, en lugar de datos frescos creados por humanos, se estarían creando elementos alejados de la realidad, lo que afectaría a la veracidad de las entidades que las ejecutasen.
Por todo ello, las descripciones o prompts deben partir de una gran base de datos, conformada por imágenes asociadas a determinadas palabras. La IA trabaja relacionando términos con patrones visuales y viceversa. Pero cuando la herramienta comienza a entrenarse con creaciones propias, el resultado pasa a ser diferente y paulatinamente va perdiendo calidad y generando imágenes que poco o nada se asemejan a la realidad.
La MAD a fondo
La Autofagia en el Modelo (en inglés ‘Model Autophagy Disorder’ – MAD) es un problema que afecta a las IA que se nutren de sus propios datos. Desde ese preciso instante, los modelos entran en bucle, pues crean una imagen, se entrenan con ella y vuelven a generarla al instante. Se pierde precisión y se convierte en un elemento irreconocible.
Este estudio, titulado ‘Self-Consuming Generative Models Go MAD’ y que parte de la Universidad de Rice y de la Universidad de Stanford, asegura que el error está garantizado. Las imágenes van perdiendo nitidez y acumulan errores. El bucle de autofagia pasa a ser inevitable.
Con anterioridad, en el contexto de los grandes modelos de lenguaje (LLM), se denominaba ‘colapso del modelo’, pero en la actualidad se utiliza el concepto de ‘trastorno de autofagia del modelo o MAD’.
¿Cómo surge la MAD?
La respuesta es bien sencilla. Las grandes tecnológicas recurren a los datos sintéticos y bases de datos ficticias porque son más baratos que los datos del mundo real. Además, son prácticamente ilimitados en términos de suministro. Esto quiere decir que plantean menos riesgos de privacidad, tal y como sucede con los datos médicos, y que pueden mejorar el nivel de rendimiento de la IA.
La MAD recuerda a enfermedades epidémicas como ‘las vacas locas’. En este caso, el entrenamiento de datos sintéticos genera como consecuencia la creación de un bucle de retroalimentación, también conocido como bucle autófago o autoconsumador. Pese a las investigaciones, es inevitable que los nuevos modelos puedan corromperse irreparablemente, según apunta Richard Baraniuk, profesor de Ingeniería Eléctrica e Informática de la Cátedra C. Sidney Burrus de Rice.
El estudio, titulado ‘Los modelos generativos de autoconsumo se vuelven locos’, señala que existen tres variantes de bucles de entrenamiento autoconsumibles, diseñadas para proporcionar una representación realista de combinación de datos reales y sintéticos en conjuntos de datos de entrenamiento para modelos generativos. Así pues, se pueden dar hasta tres escenarios diferentes: un bucle totalmente sintético, un bucle de aumento sintético (sintético + conjunto fijo de datos reales) y un bucle de datos nuevos (sintético + nuevo conjunto de datos reales).
Cómo evitar la MAD
Para evitar la Autofagia en el Modelo se deberá introducir información fresca, real y original en el bucle. De este modo, la cadena negativa se llegará a destruir. No obstante, si los nuevos contenidos no fuesen lo suficientemente óptimos, lo único que se conseguiría como resultado es retrasar la degradación de los modelos.
Para evitar la Autofagia en el Modelo lo más importante es tener en cuenta el porcentaje de contenidos generados por IA que ocupan estas bases de datos, así como otras medidas de control de calidad.
La Autofagia en el Modelo (MAD) puede afectar a los grandes modelos si se entrenan con contenidos generados con IA. No obstante, éstos poseen mecanismos que evitan que otros contenidos generados con IA afecten a sus resultados o perjudiquen directamente a sus bases de datos a propósito, como es el caso de NightShade.
Si los contenidos negativos se encuentran presentes en un gran porcentaje se generarán graves consecuencias, aunque es un escenario que se plantea en otras imágenes de escasa calidad, como borrosas o mal etiquetadas. De ahí que las entidades se encarguen de ejecutar etapas de selección dentro de sus bases de datos. No obstante, no siempre se puede garantizar su nivel de calidad.
Cuando uno de los modelos da a elegir al usuario entre varias imágenes, considera que la que se selecciona finalmente es el resultado óptimo y que el resto de contenidos no se ajustan a lo pedido inicialmente. Las decisiones humanas influyen directamente en el resultado final. No obstante, mientras que se le sigan incorporando nuevos datos a sus registros, las aplicaciones de IA Generativa no se autodestruirán.
En resumen, el objetivo de la IA Generativa a medio plazo es evitar un escenario catastrófico. De no controlarse, la MAD podría contaminar la calidad y la diversidad de los datos que aparecen en Internet y, por ende, generar consecuencias imprevistas nunca antes vistas de la autofagia de la IA a corto plazo.