Hace menos de un mes, Google mencionó en el Google en el I/O ‘22 todas las actualizaciones que traería para el público. Hoy, el generador de imágenes de inteligencia artificial (IA) del gigante tecnológico mostró la capacidad de recrear una foto realista, con una simple descripción de hasta cuatro palabras.
Es así, como poco a poco la inteligencia artificial ha ido tomando lugar en la vida cotidiana de las personas. Muchas empresas han decidido invertir en esto, gracias su crecimiento y todas las oportunidades que ofrece.
Según Jeff Dean, jefe de IA de Google, este tipo de sistemas de IA "pueden desbloquear la creatividad conjunta de humanos y ordenadores" e Imagen es "una de las direcciones que (la empresa) está siguiendo". El avance realizado por el equipo de investigacion de Google, Brain Team, en su modelo de difusión de texto a imagen es el nivel de realismo. En general, DALL-E 2 es mayormente realista con su salida, pero una mirada más profunda podría revelar las licencias artísticas realizadas.
Imagen, se basa en la fuerza de los modelos de lenguaje de grandes transformadores en la comprensión del texto y se apoya en la potencia de los modelos de difusión en la generación de imágenes de alta fidelidad.
El aumento del tamaño del modelo de lenguaje en Imagen aumenta tanto la fidelidad de la muestra como la alineación imagen-texto mucho más que el aumento del tamaño del modelo de difusión de la imagen.
Para probar este avance, Google creó un punto de referencia para evaluar los modelos de texto a imagen llamado DrawBench. Los evaluadores humanos prefirieron "Imagen sobre otros modelos en las comparaciones lado a lado, tanto en términos de calidad de la muestra como de alineación imagen-texto". Se comparó con VQ-GAN+CLIP, los modelos de difusión latente y DALL-E 2.
Por otra parte, las métricas utilizadas para demostrar que Imagen es mejor en la comprensión de las solicitudes de los usuarios incluyen las relaciones espaciales, el texto de formato largo, las palabras raras y las peticiones desafiantes. Otro de los avances conseguidos es una nueva arquitectura U-Net eficiente que es "más eficiente en términos de computación, más eficiente en términos de memoria y converge más rápido".
Imagen alcanza una nueva puntuación FID de 7,27 en el conjunto de datos COCO, sin necesidad de entrenar en COCO y los evaluadores humanos consideran que las muestras de Imagen están a la par con los propios datos COCO en la alineación imagen-texto.
En cuanto al impacto social, Google "ha decidido no compartir el código o una demostración pública" de Imagen en este momento, dado el posible uso indebido. Además, Imagen se basa en codificadores de texto entrenados en datos a escala de la web sin curar, por lo que hereda los sesgos sociales y las limitaciones de los grandes modelos lingüísticos. Como tal, existe el riesgo de que Imagen haya codificado estereotipos y representaciones perjudiciales, lo que orienta nuestra decisión de no liberar Imagen para su uso público sin que existan más salvaguardas.