La síntesis de texto a imagen ha sido uno de los avances más emocionantes en el campo de la inteligencia artificial en los últimos años. La capacidad de generar imágenes realistas a partir de descripciones de texto ha abierto nuevas posibilidades en campos como el diseño gráfico, la publicidad y la creación de contenido. Sin embargo, la arquitectura de elección para estos modelos generativos ha cambiado rápidamente, desde GANs hasta modelos auto-regresivos y de difusión. ¿Puede GANs escalar para aprovechar grandes conjuntos de datos? La respuesta es sí, con la nueva arquitectura GAN llamada GigaGAN.
Ventajas de GigaGAN
GigaGAN ofrece tres ventajas principales en comparación con otras arquitecturas de síntesis de texto a imagen. En primer lugar, es mucho más rápido en el tiempo de inferencia, tardando solo 0,13 segundos en sintetizar una imagen de 512 píxeles. En segundo lugar, puede sintetizar imágenes de alta resolución, como imágenes de 16 megapíxeles en 3,66 segundos. Por último, GigaGAN admite diversas aplicaciones de edición de espacio latente, como interpolación latente, mezcla de estilo y operaciones aritméticas vectoriales.
Cómo funciona GigaGAN
El generador de GigaGAN consta de una rama de codificación de texto, una red de mapeo de estilo, una red de síntesis multi-escala, mejorada por atención estable y selección de kernel adaptativa. En la rama de codificación de texto, se extraen los embeddings de texto utilizando un modelo CLIP pre-entrenado y capas de atención aprendidas. El embedding se pasa a la red de mapeo de estilo para producir el vector de estilo w, similar a StyleGAN. Ahora, la red de síntesis utiliza el código de estilo como modulación y los embeddings de texto como atención para producir una pirámide de imágenes. Además, se introduce la selección de kernel adaptativa para elegir de manera adaptativa los kernels de convolución en función del condicionamiento de texto de entrada.
Cambiando la textura y el estilo con GigaGAN
GigaGAN también permite el control de estilo y textura en diferentes escalas. Por ejemplo, para cambiar la textura de un oso de peluche en una mesa, se utiliza el prompt «Un oso de peluche con la textura de [fleece, crochet, denim, fur] en una mesa» en capas finas. Para cambiar el estilo de una mansión, se utiliza el prompt «Una mansión [moderna, victoriana] en [día soleado, atardecer dramático]» en capas finas.
Referencias
- GigaGAN: https://arxiv.org
- DALL·E 2: https://openai.com/dall-e-2/
- StyleGAN: https://arxiv.org/abs/1812.04948
- CLIP: https://openai.com/blog/clip/
En Resumen
¿Qué es GigaGAN y cómo se diferencia de otros modelos de síntesis de texto a imagen?
GigaGAN es una nueva arquitectura de GAN que se utiliza para la síntesis de texto a imagen. Se diferencia de otros modelos de síntesis de texto a imagen en tres aspectos principales. En primer lugar, es mucho más rápido en el tiempo de inferencia, tardando solo 0,13 segundos en sintetizar una imagen de 512 píxeles. En segundo lugar, puede sintetizar imágenes de alta resolución, por ejemplo, píxeles de 16 megapíxeles en 3,66 segundos. En tercer lugar, GigaGAN admite varias aplicaciones de edición de espacio latente, como la interpolación latente, la mezcla de estilos y las operaciones aritméticas vectoriales. La arquitectura del generador de GigaGAN consta de una rama de codificación de texto, una red de mapeo de estilo, una red de síntesis multi-escala, mejorada por una atención estable y una selección de kernel adaptativa. En la rama de codificación de texto, se extraen los embeddings de texto utilizando un modelo CLIP pre-entrenado y capas de atención aprendidas. El embedding se pasa a la red de mapeo de estilo para producir el vector de estilo, similar a StyleGAN. Luego, la red de síntesis utiliza el código de estilo como modulación y los embeddings de texto como atención para producir una pirámide de imágenes. GigaGAN puede sintetizar imágenes de ultra alta resolución en resolución 4k en 3,66 segundos y tiene un espacio latente continuo, desenredado y controlable. Además, se entrena un upsampler rápido que puede generar imágenes de 4K a partir de las salidas de baja resolución de modelos de texto a imagen. GigaGAN supera a otros modelos como Stable Diffusion v1.5, DALL·E 2 y Parti-750M en términos de FID.
¿Cómo se puede controlar el estilo de la imagen generada por GigaGAN con text prompts?
Se puede controlar el estilo de la imagen generada por GigaGAN con text prompts aplicando diferentes prompts en diferentes escalas. En capas gruesas, se utiliza el prompt «Un oso de peluche en una mesa» para fijar el diseño, y en capas finas, se utiliza «Un oso de peluche con la textura de [fleece, crochet, denim, fur] en una mesa» para cambiar la textura. Además, GigaGAN ofrece un espacio latente continuo y controlable que permite la edición de estilo, la mezcla de estilo y las operaciones aritméticas vectoriales.
¿Puede GigaGAN generar imágenes de alta resolución y en qué tiempo lo hace?
Sí, GigaGAN puede generar imágenes de alta resolución y lo hace en un tiempo muy rápido. Puede sintetizar imágenes de 512px en solo 0.13 segundos y también puede generar imágenes de alta resolución, como por ejemplo imágenes de 16 megapíxeles en 3.66 segundos. Además, GigaGAN es capaz de generar imágenes ultra alta resolución en resolución 4K en 3.66 segundos. Esto se debe a su arquitectura que incluye una red de síntesis multi-escala, atención estable y selección de kernel adaptativa. También cuenta con un espacio latente continuo, disentangled y controlable.
- [con]Neurona #26 - 18 de diciembre de 2023
- [con]Neurona #25 - 10 de diciembre de 2023
- [con]Neurona #24 - 2 de diciembre de 2023