Revolución en la gestión de memoria para servidores con IA

ITfluence
16-05-2026

La Era de la Memoria Compartida en Servidores IA

Para muchos, la escasez de memoria representa un desafío tangible, especialmente para el consumo doméstico de módulos de RAM y demás componentes. Sin embargo, esta situación también afecta a las grandes empresas tecnológicas que gestionan inteligencia artificial en centros de datos. Estos centros, lejos de ser una abstracción, enfrentan una demanda creciente de memoria que lleva a reconsiderar antiguos paradigmas: ya no es suficiente depender únicamente de la RAM integrada.

Tradicionalmente, los datos solían residir en el propio equipo, en otra máquina de la red o en sistemas compartidos. La próxima ola de tecnologías de servidores podría seguir una lógica similar con la memoria RAM. La propuesta es conservar una parte local en cada máquina y transferir una mayor proporción hacia sistemas externos, lo que ha dado origen al concepto de «memory godbox»: grandes grupos de memoria desvinculados de una única máquina específica.

El Ascenso de CXL

Compute Express Link (CXL) ha emergido como una solución prometedora para arquitecturas más flexibles. Aunque su avance ha sido gradual, hoy en día, su relevancia ha aumentado notablemente debido a la presión sobre la memoria. CXL ofrece una interfaz coherente que conecta procesadores, memoria, aceleradores y otros periféricos, haciendo uso de PCIe. La esencia de CXL es sencilla: separar recursos sin romper la impresión de un funcionamiento conjunto.

Inicialmente, CXL permitió expandir la memoria de un servidor a través de módulos en ranuras PCIe compatibles. Con la llegada de CXL 2.0 se presentó el «pooling» de memoria, permitiendo reunir memoria para asignarla según fuera necesario. Aun así, esta memoria podía reasignarse pero no compartirse completamente entre sistemas sobre los mismos datos. CXL 3.0 supone un avance al permitir topologías más extensas y memoria compartida entre múltiples máquinas.

El desafío de la inteligencia artificial no solo radica en la capacidad de cómputo, sino también en la cantidad de memoria disponible. Aunque la HBM es extremadamente rápida, su capacidad es limitada y costosa. Durante el entrenamiento de modelos, el reto principal es manejar grandes volúmenes de datos. En cambio, durante la inferencia, se usa el modelo entrenado para realizar predicciones, requiriendo de eficaces gestiones de memoria como el KV cache, que almacena vectores de atención para mantener el contexto adecuado.

Innovadores en el Campo de la Memoria Compartida

Actualmente, empresas como Panmnesia, Liqid, y UnifabriX están desarrollando métodos para utilizar memoria externa, haciéndola accesible para múltiples servidores. Algunos emplean switches CXL, mientras que otros gestionan grandes reservas de DDR5, distribuyéndolas entre distintos hosts. Enfabrica, por su parte, ha desarrollado Emfasys, un sistema de inferencia que promete alcanzar 18 TB de DDR5 por servidor de memoria y hasta 144 TB en un rack completo.

La industria no solo busca mayores capacidades de memoria, sino también nuevas maneras de integrarla para optimizar el funcionamiento de la inteligencia artificial.