El chip de IA más grande del mundo con 4 billones de transistores para alimentar supercomputadoras
El chip también necesita un 97 por ciento menos de código para entrenar un LLM en comparación con una GPU. Se puede implementar un modelo de tamaño GPT-3 con solo 565 líneas de código.
Ameya Paleja 15 de marzo de 2024 08:08 a. m. EST
Cerebras Systems, con sede en California, ha presentado el Wafer Scale Engine (WSE-3), su último chip de inteligencia artificial (IA) con la friolera de cuatro billones de transistores. Ofrece el doble de rendimiento que su predecesor, el Cerebras WSE-2, que anteriormente ostentaba el récord del chip más rápido. Los sistemas fabricados con el WSE-3 podrán ajustar modelos con 70 mil millones de parámetros en tan solo un día, según un comunicado de prensa. [...]
El fabricante de chips Nvidia ha alcanzado alturas gracias a la demanda de chips más nuevos, más grandes y más potentes. Su oferta disponible comercialmente, H200, se utiliza para entrenar modelos de IA y tiene 80 mil millones de transistores. Aún así, con el WSE-3, Cerebras pretende superar el rendimiento 57 veces. El WSE-3 utiliza la arquitectura de 5 nm y está diseñado para ofrecer 900.000 núcleos optimizados para el procesamiento de datos de IA cuando se utiliza en el CS-3, la supercomputadora de IA de la empresa. La supercomputadora tiene una SRAM en chip de 44 GB. Puede almacenar 24 billones de parámetros en un único espacio de memoria lógica sin particionarlos ni refractarlos. Esto tiene como objetivo "simplificar drásticamente" el flujo de trabajo de capacitación y mejorar la productividad del desarrollador, según el comunicado de prensa.
Clic AQUÍ para seguir leyendo y ver la imagen.
No hay comentarios:
Publicar un comentario