Cómo funciona una inteligencia artificial del tipo Stable Diffusion.En esencia, los modelos de difusión son modelos generativos. En concreto, en las tareas de visión por ordenador, funcionan primero añadiendo sucesivamente ruido gaussiano a los datos de la imagen de entrenamiento. Una vez que los datos originales están completamente cargados de ruido, el modelo aprende a invertir completamente el proceso de ruido, lo que se denomina eliminación de ruido. El objetivo de este proceso de eliminación de ruido es recrear de forma iterativa las características gruesas y finas de la imagen original. A continuación, una vez completado el entrenamiento, podemos utilizar el modelo de difusión para generar nuevos datos de imagen simplemente pasando el ruido muestreado aleatoriamente a través del proceso de eliminación de ruido aprendido.
Stable Diffusion
Stable Diffusion, la continuación del trabajo anterior de los mismos equipos sobre los modelos de difusión latente, mejoró significativamente a sus predecesores tanto en la calidad de la imagen como en el alcance de su capacidad. Lo ha conseguido gracias a un conjunto de datos de entrenamiento más robusto y a cambios significativos en la estructura del diseño.
Este modelo utiliza un codificador de texto congelado CLIP ViT-L/14 para condicionar el modelo a las indicaciones de texto. El conjunto de datos utilizado para el entrenamiento es el laion2B-en, que consta de 2.320 millones de pares imagen-texto en lengua inglesa. Tras el entrenamiento, con sus 860M de UNet y 123M de codificador de texto, el modelo es relativamente ligero y puede ejecutarse en una GPU con al menos 10GB de VRAM. También puede optimizarse para ejecutarse en GPUs con ~8 GB de VRAM, reduciendo la precisión del formato numérico a media precisión (FP16).
En la práctica, estos cambios permiten a Stable Diffusion sobresalir en una serie de tareas de visión por ordenador, entre ellas
Síntesis semántica: generación de imágenes únicamente mediante el condicionamiento a partir de indicaciones de texto.
Inpainting – rellenar con precisión las partes que faltan en las imágenes, utilizando el aprendizaje profundo para predecir las características de la parte que falta de la imagen
Superresolución – una clase de técnicas que mejoran (aumentan) la resolución de un sistema de imágenes