• Home /

  • Ciberseguridad /

  • Los nombres de miles de artistas usados para entrenar a la IA de Midjourney se filtran en Internet

Los nombres de miles de artistas usados para entrenar a la IA de Midjourney se filtran en Internet

Recientemente se compartió una hoja de cálculo pública de Google con más de 16.000 autores y personalidades dedicadas a la creación.

Alberto Payo

Periodista

Guardar

Inteligencia artificial.
Inteligencia artificial.

Durante el último año la polémica sobre las inteligencias artificiales generativas y su uso de contenidos con copyright para entrenarlas se ha recrudecido, con litigios abiertos en este ámbito iniciados por escritores, artistas y medios de comunicación que han denunciado a las empresas detrás de los grandes modelos de lenguaje (LLM). 

Recientemente se ha conocido que una lista que contenía los nombres de más de 16.000 artistas supuestamente utilizados para entrenar al programa de IA para pasar de texto a imágenes Midjourney ha circulado públicamente. 

La llamada 'Midjourney Style List' se albergaba en una hoja de cálculo de Google que era pública, según se hace eco The Art Newspaper. Aunque fue rápidamente restringido el acceso al documento se encuentra parcialmente visible a través de la página Internet Archive. 

Además, muchos de los artistas y prompts aparecieron referenciados en documentos de un juzgado accesibles públicamente dentro de una lista de 25 páginas de nombres a los que se hace referencia en imágenes de entrenamento para Midjourney. 

El artista Jon Lam, empleado en la firma de videojuegos Riot Games, ha compartido en X capturas de pantalla de un chat en el que los desarrolladores de esta IA discuten la precarga de nombres y estilos de artistas desde Wikipedia y otras fuentes, garantizando que el trabajo estaría disponible para la imitación y se presentaría predominantemente como material de referencia para la creación de imágenes. 

Además, en una captura de pantalla David Holz, CEO de Midjourney, daría el OK a la incorporación de 16.000 artistas a la formación del programa. Incluso hay una captura donde un miembro del chat comenta de manera sarcástica el tema de los derechos de autor. 

“Todo lo que debes hacer es usar esos conjuntos de datos extraídos y [sic] olvidarás convenientemente lo que usaste para entrenar el modelo. Problemas legales del boom solucionados para siempre”, comenta irónicamente este empleado. 

Una demanda colectiva que busca obtener una compensación de Stability AI, Midjourney y DeviantArt por el uso no consensuado del trabajo de artistas humanos en su entrenamiento toma este conjunto de datos extraídos que se mencionan en el chat como un elemento fundamental. Aunque un juez la desestimó en octubre, se modificó y presentó nuevamente en noviembre, incluyendo también al generador de vídeo Runway en la misma. 

Un elemento central de la afirmación de que Midjourney es culpable de infracción de derechos de autor es la utilización que hace su programa del conjunto de datos LAION-5B, una colección de 5.850 millones de imágenes recopiladas de Internet, incluyendo obras protegidas por derechos de autor. 

Si bien todas las iteraciones de LAION se hicieron públicas con la solicitud de que "solo deberían usarse con fines de investigación académica", la demanda alega que Midjourney usó conscientemente la colección en sus servicios monetizados, entrenando el programa de IA generativa de la compañía con imágenes de LAION. 

Además, también se acusa a Midjourney de haber infringido derechos de autor al haber hecho uso del software de conversión de texto a imagen Stability AI de Stable Diffusion, ya que esta herramienta fue capacitada en una colección de obras no acreditadas y protegidas por derechos de autor. 

Todos aquellos artistas que quieran comprobar si su trabajo ha sido usado como imágenes de entrenamiento en un programa de IA generativa pueden dirigirse a la web haveibeentrained.com.