Cuando la IA se entrena a sí misma: el riesgo del colapso de modelos
¿Notaste últimamente que los resultados de tus búsquedas en línea son menos precisos? ¿O que cada vez es más difícil orientar a los estudiantes en una Internet saturada de contenidos de origen incierto? Esta percepción es compartida por muchas y muchos, y no se trata solo de una sensación. Un estudio reciente de Amazon Web Services (AWS) confirma una realidad preocupante: el 5 % de los contenidos en la web son generados o traducidos por inteligencia artificial.
Este fenómeno no solo implica una cuestión de volumen de información, sino también de su calidad, y nos enfrenta a un riesgo crítico conocido como colapso de modelos. La misma infraestructura digital de la que dependemos para enseñar e investigar se está deteriorando, lo que, paradójicamente, vuelve aún más valioso el conocimiento riguroso y humano que produce la academia.
¿Qué es el “colapso del modelo”?
El colapso del modelo se define como la disminución del rendimiento de los modelos de IA generativa cuando se entrenan con contenido previamente generado por otras IA. Se trata de un círculo vicioso que opera del siguiente modo:
- Modelos de lenguaje como ChatGPT o Gemini se entrenan “raspando” grandes volúmenes de datos disponibles en internet.
- Internet está cada vez más poblada por contenido sintético de baja calidad, generado o traducido masivamente por inteligencia artificial.
- Las próximas generaciones de modelos de IA se entrenan con esos datos sintéticos, que resultan menos diversos y pueden contener errores.
- Como consecuencia, los nuevos modelos no solo heredan esos errores, sino que los amplifican, desarrollando defectos irreversibles y perdiendo información valiosa en cada iteración.
Lejos de ser una mera hipótesis, este fenómeno fue demostrado matemáticamente en un artículo reciente publicado en la revista Nature, lo que refuerza la seriedad de esta advertencia.
Las consecuencias
Aunque los fallos de la IA a veces producen resultados absurdos, las consecuencias del colapso de modelos son mucho más profundas, en especial para el ámbito académico y la investigación.
El riesgo de un conocimiento homogéneo
Cuando un modelo se entrena con datos sintéticos, tiende a olvidar la información de las “colas” de la distribución de datos; es decir, los casos menos frecuentes o los temas más específicos. Esto reduce la diversidad del conocimiento disponible.
Vale la pena preguntarse: ¿qué pasa cuando nuestras herramientas de investigación comienzan a ignorar estudios de nicho o ideas periféricas en favor de la información más citada? Muchos de los grandes avances surgen justamente de conectar esas ideas marginales que una IA homogeneizada tendería a descartar. Corremos el riesgo de fomentar un conocimiento cada vez más uniforme, en el que las perspectivas únicas (esenciales para la innovación) simplemente desaparezcan.
La integridad de la información, en juego
Otra consecuencia directa es la toma de decisiones basada en información defectuosa. Si las herramientas de IA que usamos para analizar datos o apoyar diagnósticos se entrenan con información degradada, su confiabilidad se debilita.
Pensemos, por ejemplo, en un modelo de diagnóstico médico que, tras varias generaciones, pierde los datos sobre una enfermedad poco común. Al ya no contar con esa información en su entrenamiento, sería incapaz de reconocerla en un caso real, con implicancias potencialmente graves para cualquier disciplina que dependa de decisiones críticas.
Una advertencia para la industria y una oportunidad para la academia
Este problema no ha pasado desapercibido para la industria tecnológica. Figuras como Sam Altman, CEO de OpenAI, han señalado la necesidad de acceder a datos de alta calidad producidos por humanos (incluso protegidos por derechos de autor) como única vía para evitar la degradación de los modelos de IA. La disponibilidad de datos fiables se ha convertido en una preocupación estratégica para el futuro del desarrollo en inteligencia artificial.
Ilia Shumailov, investigador de la Universidad de Oxford, advierte con claridad:
“Es sorprendente lo rápido que se produce el colapso de los modelos y lo escurridizo que puede llegar a ser… el colapso de los modelos puede tener graves consecuencias.”
Frente a esta crisis de datos, la solución propuesta por expertos como Víctor Etxebarria es clara: la industria necesita trabajar con “datos realmente inteligentes (es decir, humanos)”. Esta advertencia se transforma, para el mundo académico, en una oportunidad directa. En un entorno digital amenazado por la homogeneidad sintética, el trabajo de la comunidad universitaria (productora por definición de datos originales, verificados y de calidad) cobra un valor estratégico sin precedentes.
Repensar nuestro rol en el ecosistema digital
El deterioro de la calidad informativa en internet no es solo un problema de experiencia de usuario; es un desafío estructural que amenaza el futuro de la inteligencia artificial. El colapso de modelos nos obliga a revisar críticamente el origen y la fiabilidad de la información con la que trabajamos y formamos a las nuevas generaciones.
En este contexto, nuestro rol cobra una relevancia decisiva. Frente a este panorama, la pregunta se vuelve ineludible: ¿cómo podemos, desde las universidades argentinas, no solo proteger la integridad de nuestra producción académica, sino también posicionarnos activamente como generadores y curadores indispensables de los datos de calidad que definirán el futuro de la inteligencia artificial?
Este texto fue elaborado con el apoyo de herramientas de inteligencia artificial mediante la técnica de Retrieval-Augmented Generation (RAG), utilizando la plataforma NotebookLM. Los contenidos y conclusiones fueron revisados y validados por el equipo del PIA, garantizando la fidelidad de las fuentes y la interpretación responsable de los materiales consultados.
