Ética

¿Cómo funcionan los modelos de texto a imagen actuales?

By Jose A. Prieto

La inteligencia artificial de texto a imagen se ha convertido en una tecnología en constante evolución. Aunque anteriormente los modelos se basaban en redes antagónicas generativas (GAN), hoy en día se está adoptando un enfoque diferente llamado difusión.

Las GAN son una cabeza de dos caras, con un generador en un lado y un discriminador en el otro. El generador tiene la tarea de crear una imagen que no existe, como una «foto» de un rostro humano, y luego entrega esa imagen al discriminador para verificar si es realista. Si la imagen generada no es realista, el generador y el discriminador continúan trabajando juntos hasta que el discriminador no puede detectar una diferencia entre la imagen generada y las imágenes reales.

Sin embargo, estos modelos GAN tienen limitaciones, en cambio, los nuevos modelos de difusión se entrenan en cientos de millones de imágenes diferentes, cada una junto con una leyenda que la describe con palabras. El entrenamiento implica dividir cada imagen en ruido visual y luego invertir el proceso para que el modelo pueda volver del ruido a la imagen original. El objetivo de este entrenamiento no es darle al modelo innumerables imágenes para usar directamente, sino servir como una especie de instrucción de fondo para que el modelo pueda inferir conceptos como el color, los objetos y el estilo artístico.

¿Cómo podemos usar estas imágenes?

La inteligencia artificial de texto a imagen permite a los usuarios crear imágenes convincentes de cualquier cosa que puedan imaginar, pero también presenta desafíos éticos y de sesgos. Algunos modelos tienen protecciones para limitar lo que los usuarios pueden crear, pero otros ofrecen muy pocas limitaciones o ninguna en absoluto. Además, los conjuntos de datos de imágenes que sustentan estos modelos se derivan de Internet, reflejando nuestros sesgos sociales.

Tenemos que tener en cuenta que estos modelos reflejan inherentemente la esencia de la información en la que fueron entrenados, y pueden tener una representación insuficiente de algunas comunidades y una representación excesiva de otras.

Un ejemplo de esto es la aplicación de inteligencia artificial Lensa que lanzó una función llamada «Avatares mágicos» que convierte fotos de la vida real en retratos de varios géneros. Aunque la función se volvió popular, también ha sido criticada por copiar a artistas reales y por invocar estereotipos racistas y sexistas.

Pero todo esto es regulable , bastaría con aumentando los datos con imágenes de aspecto realista. Se puede usar para llenar algunos de los vacíos de información que actualmente limitan las capacidades de la IA discriminatoria, lo que le permite funcionar mejor, particularmente en los casos en que nuestros conjuntos de datos limitados reflejan prejuicios sociales.

El futuro cercano de la IA se centrará en mejorar la equidad y la confiabilidad de los modelos para el beneficio social en nuestra vida diaria, como lo es por ejemplo los modelos de detección de cáncer cuyos conjuntos de datos deben reflejar fielmente a la población para que sean precisos y útiles para todos. Las próximas décadas de desarrollo de IA, se centrarán en hacer que la tecnología sea segura y accesible para la persona promedio.

Deja un comentario