TECH4GEEKS-LOGO-HEADER
Oxary Magazine
$10 – $15 / Week

Los detalles de AMD Instinct MI300 emergen y debutan en 2 supercomputadoras Exaflop El Capitan

MI300

(Crédito de la imagen: Marco Chiappetta)

El Instinct MI300 de AMD se perfila como un chip increíble con núcleos de CPU y GPU y una gran cantidad de memoria de alta velocidad, todo integrado en el mismo procesador, pero los detalles se mantienen ligeros. Ahora hemos recopilado nuevos detalles de una presentación de International Super Computing (ISC) 2023 que describe la próxima supercomputadora El Capitan de dos exaflop que estará impulsada por Instinct MI300. También encontramos más detalles en un discurso del CTO de AMD, Mark Papermaster, en ITF World 2023, una conferencia organizada por el gigante de las búsquedas imec (puede leer nuestra entrevista con Papermaster aquí).

La supercomputadora El Capitan está lista para ser la más rápida del mundo cuando se encienda a fines de 2023, tomando la posición de liderazgo de la Frontier impulsada por AMD. La máquina estará alimentada por el poderoso Instinct MI300 de AMD, y los nuevos detalles incluyen un mapa de topología de una instalación MI300, imágenes del laboratorio Austin MI300 de AMD y una imagen de los nuevos blades que se utilizarán en la supercomputadora El Capitan. También cubriremos algunos de los otros desarrollos nuevos en torno al lanzamiento de El Capitán.

Imagen 1 de 5MI300(Crédito de la imagen: AMD)MI300(Crédito de la imagen: AMD)MI300(Crédito de la imagen: AMD)MI300(Crédito de la imagen: futuro)MI300(Crédito de la imagen: futuro)

Como recordatorio, el Instinct MI300 es una APU de centro de datos que combina un total de 13 chipsets, muchos de los cuales están apilados en 3D, para crear un paquete de un solo chip con veinticuatro núcleos de CPU Zen 4 fusionados con un motor gráfico. 3 y ocho pilas de memoria HBM3 con un total de 128 GB. En general, el chip pesa 146 000 millones de transistores, lo que lo convierte en el chip más grande que AMD ha puesto en producción. Los nueve troqueles de cómputo, una combinación de CPU y GPU de 5nm, están apilados en 3D en cuatro troqueles base de 6nm que son intercaladores activos que manejan la memoria y el tráfico de E/S, entre otras funciones.

El discurso de apertura de ITF World de Papermaster se centró en el objetivo «30×25» de AMD de aumentar la eficiencia energética 30 veces para 2025, y cómo la informática ahora está controlada por la eficiencia del combustible a medida que la Ley de Moore se ralentiza. La clave de esta iniciativa es el Instinct MI300, y gran parte de su beneficio proviene de la topología de sistema simplificada que ve arriba.

Como puede ver en la primera diapositiva, un nodo con tecnología Instinct MI250 tiene CPU y GPU separadas, con una sola CPU EPYC en el medio para coordinar las cargas de trabajo.

Por el contrario, el Instinct MI300 incluye un procesador Genoa EPYC de cuarta generación y 24 núcleos integrado dentro de la carcasa, lo que elimina un procesador independiente de la ecuación. Sin embargo, se mantiene la misma topología general, sin el procesador independiente, lo que permite una topología de todos a todos totalmente conectada con cuatro elementos. Este tipo de conexión permite que todos los procesadores se comuniquen entre sí directamente sin que otra CPU o GPU actúe como intermediario para transmitir los datos a los demás elementos, lo que reduce la latencia y la variabilidad. Este es un problema potencial con la topología MI250. El mapa de topología del MI300 también muestra que cada chip tiene tres conexiones, como vimos con el MI250. Las diapositivas de Papermaster también se refieren a los intercaladores activos que forman las matrices base como «Matriz base de tela infinita de cuarta generación».

Como puede ver en el resto de estas diapositivas, el MI300 ha puesto a AMD en un camino claro para superar sus objetivos de eficiencia de 30X25 al mismo tiempo que supera la tendencia de potencia de la industria. También hemos agregado algunas fotos del silicio Instinct MI300 que hemos visto de primera mano, pero a continuación vemos cómo se ve el MI300 dentro de una hoja real que se instalará en El Capitán.

Contenido del sitio

AMD Instinct MI300 en El Capitán

Imagen 1 de 5MI300(Crédito de la imagen: LLNL vía ISC 2023)MI300(Crédito de la imagen: LLNL vía ISC 2023)MI300(Crédito de la imagen: LLNL vía ISC 2023)MI300(Crédito de la imagen: LLNL vía ISC 2023)MI300(Crédito de la imagen: LLNL vía ISC 2023)

En ISC 2023, Bronis R. de Supinski, CTO del Laboratorio Nacional Lawrence Livermore (LLNL), habló sobre la integración de las APU Instinct MI300 en la supercomputadora El Capitán. La Administración Nacional de Seguridad Nuclear (NNSA) utilizará El Capitán para buscar usos militares de la tecnología nuclear.

Como puede ver en la imagen del primer álbum de arriba, Supinski mostró una hoja única para el sistema El Capitán. Este blade, fabricado por el proveedor de sistemas HPE, cuenta con cuatro tarjetas Instinct MI300 refrigeradas por líquido en un chasis delgado de 1U. Supinksi también mostró una foto del laboratorio de AMD en Austin, donde tienen silicio MI300 en funcionamiento, lo que demuestra que los chips son reales y ya se están probando, un punto clave para señalar dados algunos de los errores recientes con los sistemas con tecnología Intel.

Supinksi a menudo se ha referido al MI300 como «MI300A», pero no sabemos si se trata de un modelo personalizado para El Capitán o de un número de producto más formal.

Supinski dijo que el chip viene con un Infinity Cache pero no especificó la capacidad disponible. Supinski también citó la importancia del nivel de memoria única varias veces, y señaló cómo el espacio de memoria unificado simplifica la programación, ya que reduce la complejidad de mover datos entre diferentes tipos de cómputo y diferentes grupos de memoria.

Supinski señala que el MI300 puede funcionar en varios modos diferentes, pero el modo principal consta de un solo dominio de memoria y un dominio NUMA, lo que proporciona una memoria de acceso uniforme para todos los núcleos de CPU y GPU. La conclusión es que la memoria caché coherente reduce el movimiento de datos entre la CPU y la GPU, que a menudo consume más energía que el propio cálculo, lo que reduce la latencia y mejora el rendimiento y la eficiencia energética. Supinksi también dice que fue relativamente fácil transferir el código de la supercomputadora Sierra a El Capitán.

El resto de las diapositivas de Supinski incluyen información que AMD ya ha filtrado, incluidas proyecciones de rendimiento de 8 veces el rendimiento de la IA y 5 veces el rendimiento por vatio del MI250X.

Imagen 1 de 7MI300(Crédito de la imagen: LLNL vía ISC 2023)MI300(Crédito de la imagen: LLNL vía ISC 2023)MI300(Crédito de la imagen: LLNL vía ISC 2023)MI300(Crédito de la imagen: LLNL vía ISC 2023)MI300(Crédito de la imagen: LLNL vía ISC 2023)MI300(Crédito de la imagen: LLNL vía ISC 2023)MI300(Crédito de la imagen: LLNL vía ISC 2023)

HPE está construyendo el sistema El Capitan basado en su arquitectura Shasta y la interconexión de red Slingshot-11. Es la misma plataforma que impulsa las otras dos supercomputadoras a exaescala del DOE, Frontier, la supercomputadora más rápida del mundo, y la a menudo retrasada Aurora con tecnología de silicio Intel.

La NNSA tuvo que construir más infraestructura para ejecutar la supercomputadora Sierra y El Capitán simultáneamente. Este trabajo incluyó el fortalecimiento de la fuente de alimentación informática dedicada de 45 MW a 85 MW. Hay 15 MW de potencia adicionales disponibles para el sistema de refrigeración, que se ha aumentado a 28.000 toneladas mediante la adición de una nueva torre de refrigeración de 18.000 toneladas. Esto le da al sitio un total de 100MW de potencia, pero se espera que El Capitán consuma menos de 40MW, aunque el valor real podría rondar los 30MW; las cifras finales no se conocerán hasta la implementación.

El Capitán será el primer sistema de tecnología avanzada (ATS) que utiliza el software de sistema operativo Tri-lab personalizado (TOSS) de NNSA, una pila de software completa basada en RHEL.

El programa Rabbit de El Capitan para almacenamiento

Imagen 1 de 4MI3000(Crédito de la imagen: LLNL vía ISC 2023)MI3000(Crédito de la imagen: LLNL vía ISC 2023)MI3000(Crédito de la imagen: LLNL vía ISC 2023)MI3000(Crédito de la imagen: LLNL vía ISC 2023)

LLNL está utilizando sistemas «EAS3» más pequeños para probar el software que se implementará en El Capitán cuando entre en funcionamiento a finales de este año. LLNL ya está probando nuevos módulos Rabbit que albergarán una gran cantidad de SSD para almacenamiento local cerca del nodo. Ci-dessus, vous pouvez voir les schémas fonctionnels de ces nœuds, mais sachez qu’ils n’utilisent pas les accélérateurs MI300 – à la place, ils ont des processeurs de serveur EPYC standard pour les tâches d’orchestration du stockage et d’ análisis de datos. Estos nodos rápidos parecen servir como búferes de ráfagas que absorben rápidamente grandes cantidades de datos entrantes, que luego se transferirán al sistema de almacenamiento masivo más lento.

Cronología de AMD Instinct MI300

Con el desarrollo continuando a un ritmo predecible, está claro que El Capitán está en camino de lanzarse más adelante este año. El MI300 abre un nuevo camino para las ofertas informáticas de alto rendimiento de AMD, pero AMD nos dice que estos chips Halo MI300 serán costosos y relativamente raros: no son productos de gran volumen, por lo que no verán un lanzamiento a gran escala como el EPYC. Procesadores del centro de datos de Génova. Sin embargo, la tecnología se filtrará a varias variantes en diferentes factores de forma.

Este chip también competirá con el Grace Hopper Superchip de Nvidia, que es la combinación de una GPU Hopper y una CPU Grace en la misma placa. Estos chips deberían llegar este año. Los procesadores Grace basados ​​en Neoverse admiten el conjunto de instrucciones Arm v9 y los sistemas vienen con dos chips fusionados con la nueva tecnología de interconexión NVLink-C2C de Nvidia. Por el contrario, el enfoque de AMD está diseñado para ofrecer un mayor rendimiento y eficiencia energética, ya que la combinación de estos dispositivos en un solo paquete generalmente permite un mayor rendimiento entre unidades que cuando se conectan a dos dispositivos separados como lo hace Grace Hopper.

El MI300 también estaba destinado a competir con Falcon Shores de Intel, un chip diseñado originalmente para presentar una cantidad variable de mosaicos de cómputo con núcleos x86, núcleos de GPU y memoria en muchas configuraciones posibles. Intel los retrasó recientemente hasta 2025 y rediseñó los chips para que presenten solo GPU y arquitectura AI; ahora ya no contarán con núcleos de CPU. De hecho, eso deja a Intel sin competidor directo para el Instinct MI300.

Dado que la fecha de encendido de El Capitan se acerca rápidamente y la reputación de AMD de poner en funcionamiento las supercomputadoras a tiempo, podemos esperar que AMD comience a compartir mucha más información sobre sus APU Instinct Mi300. AMD organizará el evento de transmisión en vivo de tecnología de inteligencia artificial y centro de datos de próxima generación de la compañía el 13 de junio, y esperamos escuchar más allí. Nos aseguraremos de traerte lo último de este evento cuando llegue.

Fuente

Etiquetas

Comparte en:

Ultimos Post

Categorias

Lorem ipsum dolor sit amet, consectetur adipiscing elit eiusmod tempor ncididunt ut labore et dolore magna
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore