Episodio 231 – ControlNet: la nueva revolución en la IA

Episodio 231 – ControlNet: la nueva revolución en la IA

Hasta ahora, uno de los principales desafíos para generar imágenes con IA verdaderamente sorprendentes era el control del usuario. El asistente ControlNet para Stable Diffusion resuelve este problema y devuelve el poder al artista.

¿Qué es ControlNet? Stable Diffusion te permite obtener imágenes de alta calidad simplemente escribiendo una plantilla de texto. Además, la plantilla también acepta una imagen como entrada para comenzar (no solo texto). Gracias a esta y otras plantillas similares, hoy es fácil generar imágenes increíbles en segundos.

Sin embargo, la plantilla no es perfecta, no siempre es fácil escribir el prompt adecuado y no siempre obtenemos lo que queremos, por lo que se han probado formas alternativas.

Si has probado algunos de los nuevos generadores de imágenes de IA, como Stable Diffusion, lo único que te llama la atención es la falta de control general que tienes. Claro que hemos visto algunos ejemplos sorprendentes de lo que es posible, pero normalmente han sido el resultado de cientos de intentos de generación de imágenes.

En términos generales, Stable Diffusion funciona utilizando texto para generar condicionalmente una imagen a partir de ruido. ControlNet, un nuevo modelo publicado por investigadores de Stanford, añade otra forma de condicionamiento (sobre la que explicaré más adelante) y permite un control mucho mejor sobre la generación de imágenes.

Stable Diffusion comienza con ruido y comienza a generar una imagen utilizando el condicionamiento de la indicación de texto (la información extraída de un modelo lingüístico que indica a la U-Net cómo modificar la imagen). En cada paso, el modelo va añadiendo detalles y eliminando el ruido. Durante los diferentes pasos en el espacio latente, lo que antes era ruido se va pareciendo cada vez más a una imagen. Luego, el decodificador transforma lo que era ruido en una imagen en el espacio de píxeles.

¿Y ControlNet? ControlNet funciona en combinación con Stable Diffusion, aunque también tiene en cuenta entradas adicionales. Es una red neuronal que “clona” los diferentes bloques de Stable Diffusion en una “copia entrenable” y una “copia bloqueada”.

Stable Diffusion se ha entrenado con miles de millones de imágenes, mientras que el conjunto de datos de ControlNet es mucho menor, por lo que la “copia bloqueada” conserva esta información. Mientras que la “copia entrenable” puede entrenarse para aprender diferentes tipos de condicionamiento (bordes canny, líneas hough, garabatos del usuario, puntos clave humanos, mapas de segmentación, normales de forma, profundidades). A continuación, las dos partes se conectan y trabajan de forma concertada.

Lo interesante es que este enfoque tiene la capacidad de comprender qué parte de la imagen de entrada es importante y debe conservarse al generar una nueva imagen (con un condicionamiento rápido). Esto resuelve uno de los problemas del modelo original, la incapacidad de observar la imagen de entrada y mantener la coherencia espacial.

ControlNet utiliza diferentes tipos de condicionamiento para el entrenamiento: Canny edge Línea de Hough Límite HED Boceto del usuario Postura humana Segmentación semántica Una vista más detallada del modelo ControlNet manipula las condiciones de entrada de los bloques de la red neuronal para controlar aún más el comportamiento global de toda

https://huggingface.co/spaces/hysts/ControlNet

https://damo-vilab.github.io/composer-page/

Plan de Asesoria Personal

Telegram Tecnolitas

Déjame un mensaje de voz

Deja un comentario