Knowing Machines acaba de publicar un estudio titulado Models all the way down, de Christo Buschek y Jer Thorp. En él, explican cómo se entrenan los modelos de IA que necesitan grandes cantidades de imágenes, como Midjourney o Stable Diffusion. Lo hacen analizando LAION-5B, un set de datos de imágenes público.
El artículo visual original presenta el contenido poco a poco y con ejemplos animados, en un largo scroll. Aquí resumimos algunos de los puntos clave.
El estudio se divide en 5 partes:
- Presentación de LAION-5B, un conjunto de datos de imágenes muy conocido y de uso extendido.
- Cómo obtiene LAION-5B las imágenes y la información que las describe.
- Problemas detectados en cuanto a representación de diferentes idiomas y culturas en los datos.
- Cómo se determina el criterio estético en las imágenes de los modelos.
- Contenido no autorizado o inapropiado: se necesita transparencia para poder auditar estos sistemas.
Parte 1. LAION-5B
Ya se sabe que para entrenar IA generativa se necesitan inmensas bases de datos. De tal magnitud que sería inviable comprobar lo que contienen, o seleccionar el contenido a mano.
Los modelos de IA generativa, incluyendo los modelos más populares que se comercializan, suelen utilizar conjuntos de datos disponibles de forma gratuita. Uno de ellos es LAION-5B, con 5’85 billones de imágenes, lanzado en 2022 por LAION. Ésta es una organización sin ánimo de lucro alemana con fines de investigación. El set de datos es público, pero sus creadores advierten:
«No recomendamos su uso para crear productos industriales listos para su lanzamiento, ya que la investigación básica sobre las propiedades generales y la seguridad de estos modelos a gran escala, que nos gustaría fomentar con este lanzamiento, está aún en curso.»
(LAION.ai)
Uno de los posibles usos de LAION-5B es para entrenamiento de IA generativa de imágenes. Midjourney y Stable Diffusion, entre otros, lo utilizan. El estudio observa que este inmenso set contiene imágenes inapropiadas, como CSAM (material de abuso sexual infantil). La organización reconoce que los filtros automáticos para detectar y eliminar contenido son imperfectos.
Relacionado: LAION-5B se encuentra deshabilitado actualmente, tras un estudio de Stanford University que informó sobre la presencia de cientos de imágenes con CSAM.
Parte 2. Ver como un modelo
¿Cómo controlar entonces lo que contienen estos sets de datos? Knowing Machines parte de intentar entender cómo se recopila y clasifica la información.
Common Crawl
LAION-5B está construido en base a otro dataset de una organización sin ánimo de lucro: Common Crawl. Se trata de un repositorio libre y gratuito de datos extraídos mediante web crawl (rastreo web). El rastreo web recopila información automáticamente, a través de bots.
Relacionado: Dos medidas para que los bots no accedan al contenido de tu web
Algunos sitios web aparecen más que otros. Destacan por ejemplo Pinterest (155 millones de imágenes con sus descripciones), Shopify (140 millones) y SlidePlayer (72 millones).
Common Crawl busca en el HTML de los sitios web el atributo alt
de las imágenes. Este atributo está pensado para contener una descripción de la imagen, una alternativa para que usuarios con problemas de visión puedan acceder al contenido. Sin embargo, suele utilizarse para contener otra información. Tanto Pinterest como Shopify y SlidePlayer añaden texto alt
a sus imágenes. Pero en Shopify por ejemplo se usa para meter palabras clave para aparecer en resultados de búsqueda, no para describir la imagen a una persona que no pueda verla.
Por tanto, el texto en alt
no es de fiar. Para resolver este problema, investigadores de OpenAI desarrollaron una red neuronal llamada CLIP (Contrastive Language-Image Pre-training). Ésta puntúa si el texto describe adecuadamente la imagen o no. Hace esto contrastando con sets de datos de referencia como ImageNet-1K. La puntuación va de 0 a 1: si un par de imagen+texto puntúa más de 0’26-0’28, se incluye en LAION.
Knowing Machines apunta que, en proporción, muy pocas imágenes puntúan más de 0’5. Una puntuación muy alta en CLIP suele significar que la imagen contiene texto, y que éste aparece literalmente en la etiqueta alt
. La mayoría de imágenes está por debajo de 0’5, y mover el criterio una centésima arriba o abajo incluye o excluye millones de imágenes. El criterio exacto, cómo se asignan las puntuaciones, se desconoce. Las redes neuronales como CLIP son notoriamente complejas, por lo que a veces se dice que son «cajas negras».
Cajas negras en cadena
Un patrón emerge: para entrenar modelos del tamaño que se utiliza hoy en día, se necesita depender de otros modelos. Cajas negras seguidas de cajas negras. Y la responsabilidad de auditar los modelos se deja «para que lo resuelvan otros».
- LAION-5B utilizó CLIP, que se entrenó con un set de datos desconocido por el estudio.
- Para decidir qué imágenes están bien descritas en sus textos
alt
, LAION se basó en otros sets referentes como ImageNet-1K. - El «estándar» para estos sets que se usan de referencia lo asentó una red neuronal de uso extendido llamada ResNet-50.
Esta última red neuronal se introdujo en 2015 en el paper «Deep Residual Learning for Image Recognition». Aunque los datos de entrenamiento de CLIP se desconocen, OpenAI compara sus resultados con los de ResNet-50.
Parte 3. Representación idiomática y cultural
Al usar LAION, hay 3 subsets de datos principales entre los que elegir. Las imágenes se han dividido según el idioma detectado en el texto que las describe: inglés (laion2b-en), no-inglés (laion2b-multi), y desconocido (laion1b-nolang).
LAION-5B contiene más datos en inglés y en culturas de habla inglesa que en los demás 107 idiomas combinados. No sorprende: 45% de las páginas de Common Crawl son contenido en inglés. La falta de diversidad de los datos puede tener consecuencias negativas inesperadas al utilizarse para entrenar modelos. Es un problema recurrente en los sistemas de categorización que emplean IA, sobre el que ya han dado la voz de alarma investigadoras como Joy Buolamwini (Algorithmic Justice League) y Julia Angwin (Machine Bias).
Parte 4. LAION-Aesthetics
Los investigadores detrás de LAION creen que la falta de representación actual en su modelo es salvable, y trabajan en nuevos sets para diferentes propósitos. Otro subset de LAION-5B es LAION-Aesthetics, que contiene imágenes «de alta calidad visual». Es utilizado por ejemplo por Midjourney y Stable Diffusion.
De nuevo: ¿cómo se decide lo que es «alta calidad visual»? Ninguno de estos filtros, ni el de los textos alt
ni éste, son manuales. El modelo para filtrar y construir LAION-Aesthetics se entrenó con 3 fuentes: con LAION-Logos (15.000 logos) y 2 conjuntos de imágenes que humanos han calificado de «visualmente atractivas».
Estos conjuntos son: Simulacra Aesthetic Captions (SAC) y 250.000 fotografías con buenas valoraciones del sitio web dpchallenge.com (digital photography challenge). El set de fotografías se conoce como Aesthetic Visual Analysis (AVA) dataset.
Quienes valoran la estética, en ambos casos, encajan dentro de lo que los creadores del conjunto SAC llaman «WEIRD»: western, educated, industrialized, rich, democratic (personas occidentales, educadas, industrializadas, ricas y democráticas). En el caso de SAC son creadores de arte con IA, y en el de dpchallenge, aficionados a la fotografía de mediana edad. De estos últimos, el 95% de los que comparten su ubicación son estadounidenses, canadienses o europeos, pero sobre todo norteamericanos.
El modelo, que evalúa la calidad estética, se aplicó sobre los 2’3 billones de imágenes del set en inglés, para producir subsets con diferentes niveles de calidad. El criterio estético que se aplica es, por tanto, el de pequeños grupos demográficos con características muy particulares.
Parte 5. Derechos de autor y seguridad
LAION-5B ofrece una puntuacion según lo probable que es que una imagen contenga una marca de agua, o contenido inapropiado. Como apuntábamos en la parte 1, la puntuación se genera a través de modelos creados por LAION que según los investigadores «no son perfectos».
Sin embargo, LAION es un proyecto de investigación. Advierten de los problemas de sus sets, y son una de las excepciones de transparencia en el mundo de la IA. El estudio de knowingmachines.org ha sido posible gracias a que los sets son públicos.
El estudio termina haciendo un llamamiento a la transparencia, como una medida imprescindible para entender estas herramientas y sus impactos.