A l’heure où l’analyse du Big Data d’entreprise, et les données temps-réel des réseaux sociaux et des applications mobiles connaissent une croissance explosive, le besoin de vitesse et de capacité de stockage n’a jamais été aussi grand. Au cours des dernières années, les entreprises constituant l’écosystème des produits mémoires ont collaboré étroitement pour faire progresser le développement des mémoires système destinées aux applications d’entreprise. Le but de cet article est de mettre en avant les progrès réalisés par l’industrie, grâce à la récente technologie de stockage DDR4, et plus particulièrement grâce aux LRDIMM DDR4.
La technologie LRDIMM (Load Reduced Memory Module, ou module mémoire à charge réduite) DDR4 utilise une approche à buffer (tampon) de données distribué, pour améliorer la bande passante mémoire, tout en allant vers les capacités et les débits supérieurs, nécessaires aux serveurs d’entreprise à mémoire DDR4. Ceci s’oppose à l’approche RDIMM (Registred Memory Module, ou module mémoire à registres) DDR4, qui n’utilise pas de tampon de données. Globalement, la LRDIMM a continué d’évoluer et de voir sa valeur ajoutée croître pour les utilisateurs. Dans la Figure 1 ci-dessous, les systèmes d’entreprise DDR3 Gen1, comme E5-2600, offrent une vitesse LRDIMM sous-optimale, quelle que soit la capacité, pour différentes raisons qui sont expliquées dans cet article. L’E5-2600 v2 a permis des progrès significatifs en améliorant l’attrait de la LRDIMM pour les utilisateurs, et a éliminé le problème d’inversion de vitesse existant avec l’E5-2600. La LRDIMM DDR4 devrait permettre aux mémoires de soussystème d’établir un nouveau standard de performances. La LRDIMM DDR4 convient pour les plus grandes capacités mémoire, mais aussi pour un très large éventail d’applications nécessitant à la fois une bande passante très large, et des capacités élevées.
Figure 1 : Evolutions comparées des vitesses des LRDIMM et RDIMM
L’écosystème a collectivement oeuvré à grands pas pour que l’augmentation de vitesse de la LRDIMM se traduise par une augmentation proportionnelle de la bande passante mémoire de ces mémoires en Gigaoctets/seconde (Go/s). La vitesse correspond en quelque sorte au fait d’aller le plus vite possible pendant de courtes périodes ; la bande passante mémoire correspond quant à elle au fait de franchir la ligne d’arrivée le plus tôt possible. On peut résumer comme suit les améliorations apportées à DDR4 par les différents acteurs de l’éco-système, pour améliore la bande passante en Go/s :
Amélioration de l’architecture LRDIMM pour une meilleure intégrité des signaux de données
Réduction de la latence des composants, grâce à des tampons de données distribués
Contrôleur mémoire plus intelligent, avec une meilleure gestion en aval des tampons de données Comment obtient-on cela ?
Pour comprendre comment DDR4 permet cette percée en technologie LRDIMM, on peut mettre en avant certaines différences fondamentales par rapport à DDR3. Les LRDIMM DDR4 et DDR3 réduisent toutes les deux le nombre de "charges" de données, pour améliorer l’intégrité signal sur le bus de données du module mémoire, en passant d’un maximum de 4 charges, à 1 seule ; cependant, la DDR4 introduit certaines fonctionnalités supplémentaires, qui réduisent la latence globale et améliorent l’intégrité des signaux, ce qui permet d’atteindre des vitesses comparables à la RDIMM DDR4. Ainsi, la LRDIMM DDR4 produit une bande passante égale, voire supérieure, à celle de la RDIMM DDR4, à toutes les vitesses et pour toutes les capacités de stockage. Conception LRDIMM : Comparaison entre tampons mémoire centralisés et tampons mémoire distribués
Figure 2 : Topologie de conception LRDIMM
Une LRDIMM DDR3 possède un tampon mémoire situé au centre du module, comme illustré en Figure 2. Comme avec une RDIMM, le tampon mémoire (MB3518) "bufferise" (joue son rôle de tampon) et retransmet les signaux de commande, d’adresse et d’horloge aux DRAM. En outre, la LRDIMM bufferise également le bus de données E/S de la DRAM. En bufferisant les données E/S, jusqu’à quatre charges DRAM au niveau du bus amont peuvent être réduites à une seule sur le bus aval. Un nombre inférieur de charges améliore l’intégrité signal vers le contrôleur mémoire ; cependant, alors que les pistes du bus de données E/S RDIMM DDR3 vont directement du connecteur du module aux charges E/S de la DRAM[1], les pistes de la LRDIMM DDR3 sont routées vers le tampon mémoire situé au centre, augmentant ainsi la longueur des pistes jusqu’à 70 mm en aval et en amont du tampon mémoire (Figure 3).
Ces longueurs de piste supérieures constituent un handicap supplémentaire pour l’intégrité signal et la latence du chemin de données DDR3, en introduisant des conducteurs très longs au sein du bus mémoire, ce qui se traduit par des vitesses d’E/S plafond plus basses, comparé à la RDIMM DDR3.
Figure 3 : Longueurs de pistes longues de la topologie LRDIMM DDR3
Comme illustré en Figure 4 ci-dessous, la technologie LRDIMM DDR4 s’affranchit des grandes longueurs de pistes menant aux tampons mémoire DDR3, en éclatant la fonction de tampon de données vers neuf dispositifs tampon installés entre le connecteur du module mémoire et les neuf colonnes de DRAM DDR4. Les pistes de 70 mm présentes dans les LRDIMM DDR3 ont disparu, et ont été remplacées par des pistes de bus aval de 8mm et des pistes amont de longueur équivalente à celles d’une RDIMM DDR4. En plus de longueurs de pistes comparables à RDIMM DDR4, le délai de propagation à travers les tampons de données DDR4 est environ 33% plus court que dans le cas des tampons mémoire DDR3[i], ce qui réduit encore la latence. Les longueurs de pistes plus courtes de la LRDIMM DDR4 et son architecture de tampons mémoire plus rapide, permettent d’obtenir une latence et des temps d’occupation de bus en lecture/écriture, comparables à ceux de la RDIMM DDR4.
Figure 4 : Longueurs de pistes en technologie LRDIMM DDR4
Comme le montre la Figure 5, ces meilleures caractéristiques de ligne de transmission permettent des débits de données DDR4, plus rapides que dans le cas DDR3, en contribuant à une ouverture "d’oeil signal" plus "parfaite".
Figure 5 : Ouverture "d’oeil signal" parfaite, grâce à de meilleures caractéristiques des lignes de transmission permises par des conducteurs plus courts Optimisation de la latence des composants
En outre, le tampon centralisé de la mémoire DDR3 ajoute 2.5 ns de délai de transmission, et induit un trajet signal supplémentaire de 70 mm, entre l’amont du tampon mémoire et les E/S de la DRAM, et introduit donc une latence supérieure dans la LRDIMM DDR3, comparé à la RDIMM. La latence supérieure au niveau du tampon mémoire DDR3 se traduit par une réduction de la bande passante (Figure 6).
Depuis l’introduction des premières LRDIMM DDR3, les contrôleurs mémoire ont progressé en intelligence pour tirer meilleur parti des capacités mémoires étendues des LRDIMM. Plus récemment, une nouvelle fonctionnalité appelée "multiplication de rang" ("rank multiplication" en anglais) a permis de réduire la latence et d’améliorer la bande passante. La multiplication de rang est illustrée en Figure 7.
Cette technologie a pour but de résoudre le problème que pose le fait de ne disposer que de 2 bits de sélection par LRDIMM, pour sélectionner parmi 5 options ; les configurations 1 à 4 permettent de sélectionner l’une de 4 DRAM (sur une DIMM "4R" à 4 rangs) pour accéder aux données, et la configuration 5 sert à n’accéder à aucune des 4 DRAM. Le choix 5 peut par exemple servir lorsque des données sont lues à partir des 2ème et 3ème LRDIMM, sur le même canal mémoire.
Figure 7 : Multiplication de rang pour 3 DIMM par canal mémoire
Comme le montre l’exemple de la Figure 8 pour les plateformes serveur DDR3 Gen1[2], le contrôleur hôte ne tenait globalement pas compte du rang, en mode "multiplication de rang". Cela signifie que l’hôte considérait qu’il commutait sur une DRAM différente à chaque lecture, et devait par conséquent tenir compte du temps nécessaire à désactiver une DRAM et à en activer une autre, sur le même bus de données. Réciproquement, cela suppose que ces contrôleurs ne pouvaient pas être aussi rapides que possible, lors de transactions de lecture dos à dos sur le même rang logique. Ceci ce traduisait par une perte de temps allant jusqu’à 25% de la bande passante en lecture. Par rapport à une solution RDIMM sur des systèmes 24 slots entièrement peuplés et tournant à la même vitesse, la LRDIMM ne fournit que 70% de la bande passante mémoire.
Dans les plateformes serveur DDR3 Gen2[1], les contrôleurs ont commencé à gérer les rangs physiques en amont du tampon de données. Ils ont ainsi pu récupérer les données en mémoire bien plus efficacement, puisque les lectures et les écritures dos à dos sur la même mémoire avaient lieu à vitesse maximum. Ils ont également permis de surmonter plusieurs autres limitations et d’améliorer la vitesse. Ainsi, les plateformes serveur DDR3 Gen2 ont vu leurs performances grimper par rapport aux plateformes DDR3 Gen1, mais ont surtout permis de combler le handicap de bande passante par rapport aux solutions RDIMM. Le seul handicap résiduel des plateformes DDR3, était l’existence de latences dues aux composants et aux longueurs de piste, évoquées plus haut.
Avec la DDR4, l’architecture à tampons distribués réduit la latence de chacun des tampons de données distribués, qui sont de beaucoup plus petite taille. En outre, cela permet au contrôleur mémoire de cacher cette latence beaucoup plus faible au sein de sa micro-architecture.
Les améliorations de l’écosystème LRDIMM DDR4 ont permis d’améliorer de manière significative la bande passante mémoire et la vitesse des canaux. Ceci ne peut que renforcer l’attrait de la LRDIMM par rapport à la RDIMM, pour un plus large éventail d’applications, que celles-ci nécessitent des capacités importantes, une bande passante élevée, ou bien les deux.
La Figure 8 cidessous résume les améliorations apportées par les générations successives de plateformes serveur d’entreprise, à partir d’expériences réelles menées au sein du laboratoire de validation d’IDT. On peut potentiellement atteindre 3DPC à 1866 avec la LRDIMM, contre seulement 3DPC à 1600 avec de la RDIMM. Grâce à ces améliorations, nous pensons que certains constructeurs de serveur qui ont toujours configuré leurs plateformes serveur pour la vitesse, sont susceptibles de considérer également les LRDIMM 16 Go comme une alternative économique aux LRDIMM 32Go offrant une capacité supérieure. En résumé, la LRDIMM DDR4 n’est pas seulement faite pour la capacité. Elle est faite pour la capacité, mais aussi pour la bande passante.
Figure 8 : Amélioration de bande passante normalisée par rapport à une RDIMM de même vitesse, pour plusieurs générations de contrôleurs mémoire
AVERTISSEMENT Integrated Device Technology, Inc. (IDT) et ses filiales se réservent le droit de modifier les produits et/ou caractéristiques évoqués dans cet article, à tout moment et à la seuls discrétion d’IDT.
Toutes les informations présentes dans ce document, y compris les caractéristiques et les performances des produits, sont sujettes à modification sans préavis. Les spécifications de performances et les paramètres d’utilisation des produits décrits sont indiqués de manière indépendante, et ne sauraient être garantis une fois installés dans les produits de clients.
L’information présentée ici est fournie sans garantie d’aucune sorte, directe ou induite, notamment, mais pas uniquement, en ce qui concerne la pertinence des produits IDT pour tel ou tel usage, une garantie de commercialisation, ou la non-violation de droits de propriété intellectuelle d’IDT ou d’autres tiers. Ce document n’est fourni qu’au titre de guide et ne contient aucune licence de droits de propriété intellectuelle d’IDT ou de tierces parties. Les produits IDT n’ont pas vocation à être utilisés dans les systèmes d’assistance médicale ou d’autres dispositifs similaires où la panne ou le défaut de fonctionnement d’un produit d’IDT, pourrait affecter de manière significative la santé ou la sécurité des utilisateurs.
Toute personne utilisant un produit IDT de cette manière le fait à ses risques et périls, sauf accord officiel par écrit d’IDT