Fujitsu MONAKA : CPU Armv9 144 cœurs en 3.5D XDSiP, échantillon dévoilé
Wafers en vitrine, sample déjà opérationnel et une feuille de route calée sur 2027. Fujitsu avance son CPU MONAKA avec une approche 3.5D agressive et des ambitions AI/HPC assumées.
Architecture Armv9-A et packaging 3.5D XDSiP
Présenté au MWC avec 1FINITY, MONAKA combine un die de cœurs Armv9-A et des dies dédiés SRAM et I/O dans une topologie chiplets. Fujitsu retient un agencement 144 cœurs par socket, extensible à 288 cœurs en bi-socket.

Le CPU s’appuie sur le packaging 3.5D eXtreme Dimension System-in-Package (XDSiP) de Broadcom. Quatre chiplets de 36 cœurs sont empilés face-à-face avec des tuiles SRAM via hybrid copper bonding, la couche cache étant gravée en TSMC N5.
Le nœud de fabrication principal est confié à TSMC en 2 nm. L’échantillon observé révèle un large die I/O central, entouré de HBM, confirmant l’intégration mémoire à haute bande passante autour du complexe CPU.
Fujitsu MONAKA : spécifications plates-formes et calendrier
Support mémoire en 12 canaux DDR5. Connectivité PCIe 6.0 avec CXL 3.0 pour l’extension mémoire et la cohérence. Accélération vectorielle Arm SVE2 ciblant les charges AI et HPC.

Broadcom a expédié le CPU à Fujitsu fin février. Les premiers tests et validations de performances sont engagés. Des expéditions clients sont envisagées autour de l’été, avec une montée en volume planifiée pour 2027.
La plateforme vise l’inférence, la simulation et le traitement de données à grande échelle. Fujitsu compte adresser des clients externes, prolongeant l’intérêt suscité par l’A64FX à l’ère de Fugaku et ses 415,53 PFLOPS FP64, avec un score HPL-AI à 1,421 EFLOPS en FP16 en 2020.
Implications pour les nœuds Arm en datacenter
L’association TSMC 2 nm, SVE2 et PCIe 6.0/CXL 3.0 place MONAKA dans la course aux sockets Arm très denses. Si les fréquences et TDP confirment, un nœud 288 cœurs avec HBM périphérique et SRAM intégrée pourrait offrir un ratio perf/W compétitif sur l’inférence et les solveurs vectoriels, tout en optimisant la latence mémoire par l’empilement et la hiérarchisation cache en N5.

La réussite dépendra de la maturité du 2 nm et de la chaîne XDSiP en production, de la tenue des interconnexions face-à-face et de l’écosystème logiciel Armv9/SVE2 sur des workloads mixtes mémoire/IO, où CXL 3.0 peut devenir déterminant.
Source : TechPowerUp