🎃 ¡Rebajas de Halloween! ¡Office 2021 para siempre por sólo 29,11€/PC! [ Saber más ]
En los últimos años, la inteligencia artificial (IA) ha avanzado a pasos agigantados, al punto que muchos creen que podría resolver prácticamente cualquier problema. Sin embargo, recientes estudios realizados por investigadores de Apple revelan que esto no es del todo cierto, al menos en lo que respecta a las matemáticas.
Un nuevo artículo publicado por seis expertos de la compañía titulado «GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models», pone en evidencia las deficiencias de los modelos de lenguaje en tareas matemáticas básicas.
Pruebas con problemas de matemáticas de primaria
Para entender mejor las limitaciones de los modelos de lenguaje, los investigadores de Apple utilizaron el conjunto de datos GSM8K, un banco de 8.000 problemas de matemáticas de primaria formulados en diversos contextos lingüísticos.
Este conjunto de datos es comúnmente empleado como referencia para evaluar el rendimiento de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Sin embargo, en lugar de evaluar directamente con los problemas originales, los investigadores decidieron modificar ligeramente la redacción de los enunciados, sin cambiar la lógica subyacente, creando así una nueva prueba llamada GSM-Symbolic.
Los resultados fueron reveladores. La primera ronda de pruebas mostró una disminución en el rendimiento de entre 0.3% y 9.2%, simplemente por haber modificado el texto de los problemas. En una segunda ronda, los investigadores incluyeron en algunos enunciados información irrelevante para la solución, lo que provocó una caída mucho más drástica en el rendimiento, con descensos que oscilaron entre un 17.5% y un asombroso 65.7%.
¿Por qué la IA se confunde con problemas tan simples?
Para algunos, estos resultados no son sorprendentes. A menudo se ha observado que la IA tiene dificultades con tareas relacionadas con números y lógica, y esto se debe en gran medida a que no realiza un verdadero «razonamiento».
En su lugar, los modelos de lenguaje tienden a utilizar la coincidencia de patrones, transformando los enunciados en operaciones sin comprender realmente el significado detrás de ellos.
Este enfoque basado en patrones es eficaz en muchas situaciones, pero es especialmente frágil cuando se enfrenta a cambios sutiles en la forma en que se presentan los problemas. Si la redacción no sigue exactamente los patrones a los que el modelo está acostumbrado, los resultados suelen ser incorrectos. En resumen, la IA no razona de manera profunda como se podría pensar, sino que más bien procesa grandes cantidades de datos y ejecuta cálculos en base a patrones preexistentes.
El impacto en el futuro de la IA
Estos hallazgos ponen en tela de juicio las expectativas que se tienen sobre las capacidades de la IA. A menudo, se ha tendido a sobreestimar lo que la inteligencia artificial puede lograr, especialmente en áreas como el razonamiento lógico y matemático. Aunque los avances en el campo han sido impresionantes, es evidente que hay limitaciones importantes que aún no han sido resueltas.