¿Estamos cerca del colapso de la inteligencia artificial generativa?

Los contenidos generados por los chatbots pueden convertirse en una amenaza para el propio modelo por la réplica de errores en los textos de entrenamiento.

Anahí Di Santo.

Periodista.

Guardar

La inteligencia artificial generativa podría autodestruirse.
La inteligencia artificial generativa podría autodestruirse.

Desde la explosión de los modelos de inteligencia artificial generativa hacia finales de 2022, con el lanzamiento de ChatGPT, son muchas las expectativas, las especulaciones y los temores que ha despertado esta nueva tecnología que avanza más velozmente de lo que la media de usuarios puede siquiera imaginar.

Siguen siendo tema de debate –así como de esfuerzos técnicos para corregirlos– los errores que se han detectado en muchas de las afirmaciones realizadas por los diversos chatbots, también llamados ‘alucinaciones’ o ‘delirios’: información escrita de forma coherente pero con datos incorrectos, sesgados o directamente falsos.

Sin embargo, los expertos se han puesto en alerta porque han descubierto un nuevo fenómeno. La inteligencia artificial generativa podría comenzar a entrenarse con contenidos generados por sí misma, conforme estos sigan propagándose por Internet, lo que llevaría a lo que los investigadores denominan un “colapso del modelo”. Esto significa que podríamos estar frente a un proceso degenerativo que implica una multiplicación de contenidos de baja calidad, ya que los textos generados actualmente con IA contienen numerosos errores.

Así lo han advertido investigadores de las universidades británicas de Oxford y Cambridge, en un artículo publicado recientemente. Allí afirman que “a medida que los modelos de inteligencia artificial generativa se entrenen con más ‘datos sintéticos’, en lugar de con los contenidos generados por seres humanos (que son los que hacen que sus respuestas sean únicas), estos pueden responder a las consultas de los usuarios con resultados de menor calidad”.

El investigador australiano Jathan Sadowski habla de un sistema tan entrenado en los resultados de otras IA generativas que se convierte en un mutante endogámico, repleto de rasgos exagerados y grotescos.

Los expertos hablan de un proceso degenerativo porque, en un principio, las fuentes de información de los modelos de inteligencia artificial eran libros, textos o fotografías realizados por humanos en su totalidad. Pero con el avance, proliferación y uso intensivo de esta tecnología, la web, que funciona como fuente de información para la IA, se está llenando de contenidos generados por estas mismas tecnologías, provocando una contaminación que se retroalimenta.

En el mismo sentido, otros investigadores pertenecientes a las universidades estadounidenses de Stanford y Rice, denominaron a este fenómeno como “bucle autoconsumidor” de la IA, que hace que la tecnología se entrene a sí misma, deteriorando la calidad y diversidad de los contenidos generados, según indican desde Business Insider.

Por su parte, el investigador del Laboratorio de Tecnologías Emergentes de Australia Jathan Sadowski habla de un sistema tan entrenado en los resultados de otras IA generativas que se convierte en un mutante endogámico, repleto de rasgos exagerados y grotescos.

Pero claro que éste no es sólo un problema técnico. Los medios de comunicación de todo el mundo utilizan cada vez más la inteligencia artificial para generar contenidos. Y la desinformación que esto genera puede tener consecuencias mucho mayores, entre las que se incluyen los datos inexactos, sesgados y tergiversados, junto a la consiguiente distorsión de la realidad.

NewsGuard, una empresa que califica la fiabilidad de las páginas web de noticias, identificó en agosto de este año, “452 medios de comunicación no fiables generados por IA con poca o ninguna supervisión humana" que contienen historias llenas de errores.

Algunos expertos advierten, además, que esta endogamia provocada por el autoaprendizaje de la IA podría dificultar también la localización de la fuente original de información con la que se ha entrenado un modelo de inteligencia artificial.

Por ello, hay quienes proponen guardar copias de los datos originales e ir realizando entrenamientos periódicos con ellos. También se podría apostar por entrenar con datos nuevos generados por humanos e incluso hacer uso de Internet Archive para obtener datos que no están contaminados y son generados por humanos.

Miradas más optimistas, señalan que este tipo de errores generados por la IA hará que los contenidos creados por humanos sean más valiosos. Así, el vicepresidente de la compañía de IA ‘Ingeniería Cohere’, Saurabh Baji, sostiene que la orientación humana "sigue siendo fundamental para el éxito y la calidad" de los modelos de inteligencia artificial.