Este modelo de lenguaje de IA tiene un consumo de memoria 10 veces menor: Nvidia y AMD son el objetivo
Este modelo de lenguaje de IA tiene un consumo de memoria 10 veces menor: Nvidia y AMD son el objetivo
Los chatbots como Gemini o ChatGPT utilizan un gran modelo de lenguaje (LLM) con inteligencia artificial generativa para realizar diferentes acciones. Las posibilidades de estas herramientas cada vez son mayores, pero también los requisitos de hardware de los dispositivos para ejecutarlas.
Un estudio realizado por la Universidad de California ha creado un nuevo LLM que puede ejecutar miles de millones de acciones en segundo plano con 13 vatios de potencia y sin perder rendimiento. Esta cifra equivale al consumo de encender una bombilla de 100 W.
Esta era una de las principales preocupaciones de los usuarios. Windows 11 incluye funciones de IA, pero muchas personas aseguran que su dispositivo ha bajado en rendimiento. Algunas personas incluso han decidido volver a Windows 10.
La clave del éxito del proyecto de la Universidad de California no está en la inversión en sistemas más potentes, sino cambiar radicalmente la forma de conectar la información. El LLM crea una red neuronal que funciona en un hardware personalizado y elimina el factor de multiplicación de muchos sistemas de IA.
El LLM crea una jerarquía entre las palabras
Los algoritmos de los LLM actuales se basan en la multiplicación de los elementos con base en asociaciones. Las palabras se representan como números y generen matrices con las que operar para obtener un resultado numérico que equivale a uno lingüístico.
El sistema asigna una jerarquía a las palabras y las relaciona con otras de una oración o párrafo. Las matrices se almacenan en cientos de GPU separadas y se recuperan con una nueva consulta. Este proceso evita transferir datos que deben multiplicarse entre cientos de matrices, por lo que el consumo de energía es menor.
El LLM es más simple, ya que cada palabra equivale a un número y cada número tiene un valor entre uno negativo, cero o uno positivo. Los sistemas solo tienen que sumar los números en lugar de multiplicarlos, así que el algoritmo ahorra tiempo y reduce el consumo de hardware.
El equipo de investigación ha creado un hardware personalizado, pero la finalidad es convencer a los fabricantes de chips como Nvidia o AMD. El software es de código abierto y ya se ha probado en las primeras GPU estándar con un consumo de memoria 10 veces menor y un aumento de la velocidad en un 25%.