¿Por qué las IA tienen problemas para generar textos en imágenes?
Las inteligencias artificiales (IA) han demostrado su impresionante capacidad para reemplazar a los humanos en muchos aspectos. Sin embargo, si enfrentas a una IA contra estudiantes de secundaria en un concurso de ortografía, la IA sería eliminada rápidamente.
Como muestra, la imagen que encabeza de este artículo es la respuesta a una IA a «escribe un cartel con un abecedario». A pesar de todos los avances en la tecnología de IA, sigue teniendo problemas significativos con la ortografía.
Los retos de la ortografía para las IA
Los generadores de texto a imagen por IA pueden crear textos que incluyen términos ininteligibles en lugar de las palabras correctas. Incluso ChatGPT, capaz de redactar documentos complejos, falla cuando se le pide generar una palabra de 10 letras sin las letras «A» o «O» (sugiriendo “inspección”, por ejemplo).
Al parecer, los generadores de imágenes suelen tener mejor rendimiento en objetos grandes como coches y rostros humanos, pero luchan con detalles pequeños como los dedos y la escritura.
La tecnología detrás de los generadores de texto e imagen es diferente, pero ambos modelos tienen problemas similares con detalles como la ortografía. Los generadores de imagen suelen utilizar modelos de difusión, que reconstruyen una imagen a partir de ruido. Por otro lado, los modelos de lenguaje grande (LLM) como ChatGPT utilizan complejas matemáticas para encontrar patrones en los textos.
Los modelos de difusión reconstruyen una entrada dada y tienden a aprender patrones que cubren la mayor parte de los píxeles. Esto hace que los textos en imágenes sean una parte muy pequeña y, por lo tanto, difíciles de representar correctamente.
Los ingenieros pueden mejorar estos problemas añadiendo más datos y entrenando modelos específicos para enseñar a la IA cómo deben verse las manos, pero las dificultades con la ortografía podrían tardar más en resolverse.
Algunos modelos, como Adobe Firefly, están diseñados para no generar ningún texto, mostrando imágenes de papeles en blanco o carteles vacíos cuando se les pide que generen menús o anuncios.