IA

¿Por qué las IA tienen problemas para generar textos en imágenes?

💻 ¡Rebajas! ¡Clave auténtica de Windows 11 Pro por solo 13.63€! [ Saber más ]

Las inteligencias artificiales (IA) han demostrado su impresionante capacidad para reemplazar a los humanos en muchos aspectos. Sin embargo, si enfrentas a una IA contra estudiantes de secundaria en un concurso de ortografía, la IA sería eliminada rápidamente.

Como muestra, la imagen que encabeza de este artículo es la respuesta a una IA a «escribe un cartel con un abecedario». A pesar de todos los avances en la tecnología de IA, sigue teniendo problemas significativos con la ortografía.

 

Los retos de la ortografía para las IA

Los generadores de texto a imagen por IA pueden crear textos que incluyen términos ininteligibles en lugar de las palabras correctas. Incluso ChatGPT, capaz de redactar documentos complejos, falla cuando se le pide generar una palabra de 10 letras sin las letras «A» o «O» (sugiriendo “inspección”, por ejemplo).

 

Al parecer, los generadores de imágenes suelen tener mejor rendimiento en objetos grandes como coches y rostros humanos, pero luchan con detalles pequeños como los dedos y la escritura.

La tecnología detrás de los generadores de texto e imagen es diferente, pero ambos modelos tienen problemas similares con detalles como la ortografía. Los generadores de imagen suelen utilizar modelos de difusión, que reconstruyen una imagen a partir de ruido. Por otro lado, los modelos de lenguaje grande (LLM) como ChatGPT utilizan complejas matemáticas para encontrar patrones en los textos.

Respuesta a «Crea un menú con nombres de platos de comida en español»

 

Respuesta a «Crea un pared de la calle con muchos carteles publicitarios con texto»

 

Los modelos de difusión reconstruyen una entrada dada y tienden a aprender patrones que cubren la mayor parte de los píxeles. Esto hace que los textos en imágenes sean una parte muy pequeña y, por lo tanto, difíciles de representar correctamente.

Los ingenieros pueden mejorar estos problemas añadiendo más datos y entrenando modelos específicos para enseñar a la IA cómo deben verse las manos, pero las dificultades con la ortografía podrían tardar más en resolverse.

Algunos modelos, como Adobe Firefly, están diseñados para no generar ningún texto, mostrando imágenes de papeles en blanco o carteles vacíos cuando se les pide que generen menús o anuncios.

💻 ¡Rebajas! ¡Clave auténtica de Windows 11 Pro por solo 13.63€! [ Saber más ]

¿Cuál es tu reacción?
Sorprendido
0%
Feliz
0%
Indiferente
0%
Triste
0%
Enfadado
0%
Aburrido
0%
Incrédulo
100%
¡Buen trabajo!
0%
Sobre el Autor
Luis A.
Luis es el creador y editor jefe de Teknófilo. Se aficionó a la tecnología con un Commodore 64 e hizo sus pinitos programando gracias a los míticos libros de 🛒 'BASIC para niños' con 11 años. Con el paso de los años, la afición a los ordenadores se ha extendido a cualquier cacharrito que tenga una pantalla y CPU.
Comentarios
Deja un comentario

Deja un comentario