Cuando la IA se entrena a sí misma: riesgo de colapso de modelos

Cuando la IA se entrena a sí misma: el riesgo del colapso de modelos

¿Notaste que los resultados de las búsquedas en línea parecen cada vez menos precisos? ¿O que resulta más difícil orientar a estudiantes en una web saturada de contenidos de origen incierto? Esta percepción es cada vez más frecuente y no responde únicamente a una impresión subjetiva. Un estudio de Amazon Web Services (AWS) señala que el 57 % de los contenidos disponibles en internet son generados o traducidos por inteligencia artificial.

Este fenómeno no solo plantea un problema de volumen de información, sino también de calidad. En ese contexto surge un riesgo crítico conocido como colapso de modelos. La infraestructura digital utilizada para enseñar, investigar y producir conocimiento comienza a degradarse, lo que vuelve aún más relevante el valor del conocimiento riguroso producido por la comunidad académica.

¿Qué es el colapso de modelos?

El colapso de modelos ocurre cuando los sistemas de inteligencia artificial generativa se entrenan con contenidos previamente producidos por otras inteligencias artificiales. Este proceso genera una degradación progresiva en la calidad y diversidad de las respuestas.

El mecanismo puede resumirse de la siguiente manera:

Modelos de lenguaje como ChatGPT o Gemini se entrenan utilizando grandes volúmenes de información disponibles en internet.
Internet contiene una cantidad creciente de contenido sintético generado o traducido automáticamente por sistemas de IA.
Las nuevas generaciones de modelos incorporan esos datos sintéticos en sus procesos de entrenamiento.
Como esos datos suelen ser menos diversos y pueden contener errores, los nuevos modelos terminan heredando y amplificando esas limitaciones.
En cada iteración se pierde información valiosa, lo que puede derivar en defectos difíciles de corregir y en una reducción progresiva de la calidad del conocimiento generado.

Lejos de tratarse de una hipótesis teórica, este fenómeno fue demostrado matemáticamente en un artículo publicado en la revista Nature, lo que refuerza la relevancia de esta problemática.

Consecuencias para la educación y la investigación

1. Riesgo de homogeneización del conocimiento

Cuando un modelo se entrena con datos sintéticos, tiende a perder información menos frecuente o especializada. Esto implica que ciertos temas, perspectivas o investigaciones de nicho pueden quedar excluidos de las respuestas generadas por la IA.

En el ámbito académico, esta situación representa un riesgo significativo. Muchos avances científicos surgen de enfoques originales, investigaciones periféricas o conexiones entre ideas poco difundidas. Si las herramientas digitales privilegian únicamente la información más repetida o citada, se reduce la diversidad del conocimiento disponible y se limita el potencial de innovación.

2. Deterioro de la confiabilidad de la información

Otra consecuencia del colapso de modelos es la pérdida de confiabilidad en los sistemas de IA utilizados para analizar información o apoyar procesos de toma de decisiones.

Por ejemplo, un modelo de diagnóstico médico que deje de incorporar datos sobre enfermedades poco frecuentes podría perder la capacidad de identificarlas correctamente. Este tipo de degradación puede tener consecuencias importantes en cualquier disciplina que dependa de información precisa y validada.

Una advertencia para la industria y una oportunidad para la universidad

La preocupación por la calidad de los datos utilizados para entrenar modelos de IA ya forma parte del debate en la industria tecnológica. Sam Altman, CEO de OpenAI, ha señalado la necesidad de contar con datos de alta calidad producidos por personas para evitar la degradación de los modelos.
En la misma línea, Ilia Shumailov, investigador de la Universidad de Oxford, advierte:

“Es sorprendente lo rápido que se produce el colapso de los modelos y lo escurridizo que puede llegar a ser… el colapso de los modelos puede tener graves consecuencias.”

Frente a este escenario, distintos especialistas sostienen que el desarrollo futuro de la inteligencia artificial dependerá cada vez más de datos originales, confiables y producidos por humanos.

En este contexto, las universidades adquieren un papel estratégico. La producción académica y científica constituye una fuente de información verificada, diversa y de calidad, fundamental para sostener ecosistemas digitales más confiables y modelos de IA más robustos.

Conclusión: repensar el rol de la universidad en el ecosistema digital

El deterioro de la calidad informativa en internet representa un desafío estructural para el futuro de la inteligencia artificial. El colapso de modelos obliga a revisar críticamente el origen, la calidad y la confiabilidad de los datos con los que enseñamos, investigamos y desarrollamos nuevas tecnologías.

Frente a este escenario, las universidades tienen la posibilidad de asumir un rol central como productoras y curadoras de conocimiento de calidad. La construcción de entornos digitales más confiables dependerá, en gran medida, de la capacidad de fortalecer la producción académica rigurosa y preservar la diversidad del conocimiento.

Fuente: “A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism” Thompson et al.

Este texto fue elaborado con el apoyo de herramientas de inteligencia artificial mediante la técnica de Retrieval-Augmented Generation (RAG), utilizando la plataforma NotebookLM. Los contenidos y conclusiones fueron revisados y validados por el equipo del PIA, garantizando la fidelidad de las fuentes y la interpretación responsable de los materiales consultados.