Debo reconocer que he abandonado la generación de imágenes con inteligencia artificial. Los últimos modelos demandan toda la VRAM del mundo, presentan resultados muy limitados, o se encuentran detrás de un paywall. Sin embargo, Google me recuerda que es posible ingresar a la versión gratuita de Gemini 2.0 Flash, y usar su edición integrada del modelo Imagen 3 para generar imágenes mientras mantenemos una conversación. ¿Qué tan bien funciona?
Sí, la Web ha sido invadida con imágenes generadas por inteligencia artificial. No, no son muy buenas que digamos. De hecho, la gran mayoría es, en una palabra, horrible. Admito que las he usado en el pasado, pero interrumpí su adopción porque el factor de calidad simplemente no está allí. Al mismo tiempo, llama mucho la atención que marcas importantes insistan en apostar por resultados visuales tan mediocres, e ignoren las críticas (supongo que ahorrarse el salario de un diseñador es más importante).
Pero su evolución continúa, o al menos, eso es lo que sugiere el hype. Google anunció la apertura de una versión experimental de Gemini 2.0 Flash para su plataforma AI Studio, que incluye soporte multimodal, razonamiento avanzado, y un mejor entendimiento del lenguaje natural. Por lejos, lo más notable de ese paquete es la «edición por conversación» de una imagen (algo que ya hemos explorado en el pasado), sin embargo, hoy me interesa ver cuál es el estado actual de la generación de imágenes bajo la versión convencional de Gemini. Abrí un nuevo chat, y compartí algunas ideas…
Generando imágenes en un chat, ft. Google Gemini 2.0 Flash

La única «ventaja» que decidí concederle a Gemini fue iniciar y mantener la conversación en inglés, con el objetivo de minimizar cualquier error de interpretación. Primero describí una parada de bus, bajo una noche lluviosa, iluminada por un poste, con las luces de la ciudad a cierta distancia, cubriendo el paisaje. Los resultados iniciales fueron muy prometedores, pero el generador empezó a cometer errores e ignorar aspectos importantes a medida que solicitaba más detalles. En una imagen, lo único que pedí fue que girara el poste de luz 90 grados para cambiar la dirección de la luz… y terminó reemplazando todo con una imagen nueva.


¿Qué sucede con la generación de personas? Gemini es sin lugar a dudas mucho más confrontativo. Los trajes de spandex negro para nuestras heroínas espaciales de turno no son un problema, pero al solicitar una bikini o un traje de baño, los choques con su filtro se volvieron más frecuentes. También sufrió el mismo problema que la parada de bus: Llegó un punto en el que ignoró elementos básicos de la descripción, como el color de ojos.


Para finalizar, un poco de comida: El primer tazón de helado fue en realidad un tazón de postre, aunque muy bien hecho. Después lo cambió correctamente por tres bolas de helado (dos de chocolate, una de vainilla). Pero cuando pedí mejorar la textura, decidió insertar una cuarta bola de helado… y no eliminarla jamás.


Entonces, me voy de esta sesión de Google Gemini 2.0 Flash habiendo alcanzado el límite diario de imágenes generadas, y sintiendo exactamente lo que imaginaba antes de comenzar: La decepción del «casi, pero no». Supongo que puedo hacer clic en el comando «Redo» y entregarme por completo a los dioses algorítmicos, esperando que el próximo número de seed sea más favorable… pero al final del día, nadie quiere eso. El «momento Eureka» aún se siente lejos, y si me permiten el pesimismo, es probable que nunca llegue.
Accede a Gemini: Haz clic aquí