Bull eXascale Interconnect

Bull eXascale Interconnect

L’échelle exaflopique implique une explosion des performances, du nombre de noeuds et de coeurs, des volumes de données et des mouvements de données. A une telle échelle, l’optimisation du réseau qui constitue l’armature du système devient un ingrédient majeur de la performance globale. L’interconnect va être l’une des technologies clés dans les systèmes exaflopiques. C’est pourquoi la clé de voute du exascale de Bull est le développement d’une nouvelle génération d’interconnect propriétaire.

Bull eXascale Interconnect ou BXI amène un changement de paradigme en termes de performance, de scalabilité, d’efficacité, de fiabilité et de qualité de service pour les charges de travail extrêmes.

La structure BXI est hautement évolutive (jusqu’à 64 000 noeuds pour la première version) ; elle se caractérise par :

  • des liaisons haute vitesse (100 Gb/s/s),
  • une transmission très rapide des messages (>100 M msg/s),
  • une empreinte mémoire minimale et des composants à faible latence.

Libérer les processeurs des tâches de communication

Le coeur de BXI est un système de gestion des communications entièrement basé sur l’encodage matériel, ce qui permet aux CPU de se consacrer exclusivement au calcul, pendant que les communications sont gérées de façon indépendante par BXI.

Ainsi, contrairement à ce qui se passe avec d’autres technologies réseaux courantes, BXI peut fournir un débit très important même lorsque le système assure une lourde charge de calcul.

Les primitives matérielles BXI sont directement en correspondance avec les bibliothèques de communication telles que MPI (Message Passing Interface) et PGAS (Partitioned Global Address Space). Grâce à cette accéleration matérielle, BXI assure les performances de communication les plus élevées pour les applications HPC, à échelle réélle, associant une bande passant élevée, une faible latence et une transmission très rapide des messages.

L’architecture de BXI est basée sur la bibliothèque de communication Portals 4 library. Elle permet une tuilisation optimale pour tous les types de communication MPI, y compris les dernières extensions MPI-2 et MPI-3, et pour PGAS. Le protocole non connecté Portals 4 garantit une empreinte mémoire constante minimale, quelle que soit la taille du système.

Qualité de service

Le mécanisme de qualité de service de BXI permet de définir plusieurs réseaux virtuels et évite ainsi, par exemple, que les gros messages d’E/S bloquent le flux des messages plus petits. De plus, les capacités de routage adaptatif de BXI permettent d’éviter dynamiquement les goulots d’étranglement dans les communications.

Fiabilité et résistance

Pour assurer une fiabilité de haut niveau, BXI met en oeuvre la vérification des erreurs et la retransmission à la fois de bout en bout et au niveau des liaisonsboth end-to-end and link-level error checking and retransmission. De plus, toutes les éléments des ASIC BXI comprennent des codes de correction d’erreur (ECC) permettant de détecter et remédier aux erreurs. Ces mécanismes assure la continuité de service en cas d’erreur temporaire ou permanente (sur la liaison ou le commutateur).

Les composants de BXI

Les composants de BXI

La structure de BXI s’appuie sur deux types d’ASIC : un Contrôleur d’interface réseau (NIC – Network Interface Controller) et un commutateur (switch). BXI est livré avec un environnement logiciel complet.

Les commutateurs BXI sont gérés par une suite de gestion de structure distribuée et hors bande permettant de monter jusqu’à 64000 noeuds. La gestion hors bande élimine tout risque d’interférence entre le traffic de gestion et le traffic des applications.