🎃 ¡Rebajas de Halloween! ¡Office 2021 para siempre por sólo 29,11€/PC! [ Saber más ]
Apple ha publicado un estudio titulado «LLM in a Flash: Efficient Large Language Model Inference with Limited Memory,» que aborda un obstáculo crítico del uso de la IA en dispositivos: las limitaciones de memoria.
Ejecutar modelos de lenguaje LLM complejos en smartphones a menudo requiere una gran capacidad de procesamiento y memoria RAM, agotando la vida de la batería y obstaculizando el rendimiento. Sin embargo, los investigadores de Apple han ideado técnicas novedosas para reducir drásticamente la huella de memoria de los LLM sin renunciar a sus capacidades.
Mediante la creación de un modelo de coste de inferencia alineado con estas limitaciones, se introducen dos técnicas innovadoras: ‘windowing’ y ‘row-column bundling’. Estas técnicas reducen significativamente la carga de datos y aumentan la eficiencia del uso de memoria.
Los resultados prácticos son notables: permiten ejecutar LLMs hasta el doble del tamaño de la DRAM disponible, acelerando la velocidad de inferencia de 4 a 5 veces en CPU y de 20 a 25 veces en GPU en comparación con los métodos tradicionales de carga. Este avance es crucial para implementar LLMs avanzados en entornos con recursos limitados, ampliando su aplicabilidad y accesibilidad.
Esto allana el camino para un procesamiento de IA más rápido y eficiente en iPhones y iPads, lo que potencialmente permite una multitud de nuevas aplicaciones.
Imagina a Siri que comprende tu contexto y preferencias como un amigo cercano, o capaz de mostrar un feed de noticias personalizado que anticipa tus intereses. Estos son solo un vistazo a las posibilidades desbloqueadas por los LLM eficientes en dispositivos. Las empresas podrían aprovechar la IA para un servicio al cliente en tiempo real, recomendaciones de productos personalizadas e incluso traducción de idiomas en el dispositivo, eliminando la necesidad de una conectividad a internet constante.