Comment l'IA remet en question les infrastructures des centres de données

N°164 - Sep. 2024

En ligne :

Rechercher

Techniques

Comment l’IA remet en question les infrastructures des centres de données

Par Aditya Jian, Sr. Director, onsemi

Publication: 12 octobre

Partagez sur

Sous la poussée des applications émergentes, notamment les crypto-monnaies et l’intelligence artificielle/apprentissage automatique (artificial intelligence/machine learning AI/ML), l’énergie consommée par les centres de données est très importante et appelée à croître rapidement pour répondre à la demande des utilisateurs...

Selon un récent rapport de l’Agence internationale de l’énergie (AIE), les centres de données ont consommé 460 TWh en 2022, ce qui représente environ 2 % de toute l’électricité utilisée dans le monde. Aux États-Unis, où se trouvent un tiers des centres de données du monde, la consommation s’élève à 260 TWh, soit 6 % de la consommation totale d’électricité.

Prédire l’avenir est un défi et dépend du nombre de GPU gourmands en énergie qui seront déployés pour répondre aux exigences de la technologie de l’IA et, bien sûr, de l’ajout d’une climatisation supplémentaire pour maintenir la température dans le centre de données. Le rapport de l’AIE suggère que, d’ici 2026, la consommation des centres de données atteindra au moins 650 TWh (40 %), mais qu’elle pourrait atteindre 1 050 TWh (128 %).

Soutenir les tendances de l’IA dans les centres de données

L’IA est une technologie extrêmement gourmande en énergie et les centres de données qui la facilitent doivent disposer de la capacité nécessaire en termes de puissance de calcul et de fourniture d’énergie pour y faire face.

Une étude récente de l’institut de recherche suédois RISE illustre l’ampleur de ce changement rapide dû à l’adoption accélérée de cette technologie. Par exemple, ChatGPT a atteint le million d’utilisateurs dans les cinq jours qui ont suivi son lancement en novembre 2022. Ils ont atteint les 100 millions d’utilisateurs en deux mois, un cap qui a pris neuf mois à TikTok et deux ans et demi à Instagram.

A titre d’exemple, effectuer une recherche sur Google ne consomme que 0,28 Wh, ce qui équivaut à faire fonctionner une ampoule de 60 W pendant 17 secondes.

En comparaison, l’entraînement de GPT-4, avec 1 700 milliards de paramètres et en utilisant 13 000 milliards de token (extraits de mots), est une proposition complètement différente. Pour ce faire, plusieurs serveurs contenant un total de 25 000 GPU NVIDIA A100 ont été nécessaires, chaque serveur consommant environ 6,5 kW. OpenAI a déclaré que cet entraînement a duré 100 jours, utilisant environ 50 GWh d’énergie, pour un coût de 100 millions de dollars.

Il est clair que l’IA va changer la donne dans les centres de données, en exigeant une puissance de calcul et des niveaux d’énergie bien supérieurs à tout ce que nous avons vu jusqu’à présent.

Architecture 48 V du centre de données

Dans les premiers temps des centres de données, on utilisait une architecture d’alimentation centralisée (centralized power architecture, CPA) dans laquelle la conversion de la tension du secteur (réseau) en 12 V (tension du bus) était effectuée de manière centralisée. Cette tension était ensuite distribuée aux serveurs et convertie localement en niveaux logiques (5 ou 3,3 V) à l’aide de convertisseurs relativement simples.

Cependant, à mesure que les besoins en énergie augmentaient, les courants sur le bus 12 V (et les pertes associées) sont devenues inacceptables, obligeant les ingénieurs système à revenir à une configuration de bus 48 V. Cela a permis de réduire le courant par un facteur de quatre et les pertes par le carré de celui-ci, sur la base de la loi d’Ohm. Cet arrangement est devenu connu sous le nom d’architecture de puissance distribuée (distributed power architecture, DPA).

Dans le même temps, les tensions des processeurs et de certains autres composants diminuaient, pour finalement atteindre des niveaux inférieurs au volt, entraînant la nécessité de disposer de plusieurs rails secondaires. Pour y remédier, une conversion en deux étapes a été introduite avec un convertisseur DC-DC (connu sous le nom de convertisseur de bus intermédiaire (intermediate bus converter, IBC) convertissant de 48 V en un bus de 12 V, à partir duquel d’autres tensions ont été dérivées selon les besoins.

Le besoin de MOSFET à haut rendement énergétique

Les pertes d’énergie au sein d’un centre de données posent des problèmes aux opérateurs. Le premier, et le plus évident, est qu’ils paient pour de l’électricité qui ne sert à rien pour le fonctionnement des serveurs. Le second est que toute énergie perdue se manifeste sous forme de chaleur qui doit ensuite être traitée. Avec des serveurs d’IA hyperscale atteignant des besoins énergétiques de 120 kW (et qui augmenteront certainement avec le temps), même une perte de 2,5 % à un rendement maximal de 97,5 % à 50 % de charge représente 1,5 kW d’énergie gaspillée par serveur – l’équivalent d’un radiateur électrique fonctionnant à plein temps.

La gestion de la chaleur peut impliquer des mesures d’atténuation thermique au sein du système de conversion d’énergie, telles que des dissipateurs de chaleur ou des ventilateurs. Ceux-ci augmentent la taille de l’alimentation électrique, occupant de l’espace qui pourrait être utilisé pour plus de puissance de calcul et, dans le cas des ventilateurs, consommant de l’électricité, ce qui coûte de l’argent. Comme les températures doivent être soigneusement contrôlées dans les centres de données, des pertes excessives entraîneront également une augmentation de la température ambiante, ce qui nécessitera davantage de climatisation. Il s’agit d’une dépense d’investissement et d’un coût d’exploitation, ainsi que d’une consommation d’espace.

Il est évident que la conversion de la tension du secteur (réseau) en tension nécessaire pour alimenter les GPU IA et autres appareils aussi efficacement que possible présente un grand avantage pour un opérateur de centre de données.

C’est pourquoi de nombreux travaux ont été réalisés sur les topologies d’alimentation électrique au fil des ans, en introduisant de nouvelles techniques au niveau du stade PFC frontal, telles que le PFC totem-pole (TPPFC) pour les rendre plus efficaces. De plus, les redresseurs à diodes ont été remplacés par des MOSFET pour plus d’efficacité, et des techniques telles que le redressement synchrone ont été introduites.

L’amélioration de la topologie n’est que la moitié de la bataille. Pour optimiser l’efficacité, tous les composants doivent également être aussi efficaces que possible, en particulier les MOSFET qui sont essentiels au processus de conversion.

Lorsque les MOSFET sont utilisés dans la conversion de puissance à découpage, il existe deux principales formes de perte : la perte de conduction et la perte de commutation. La perte de conduction est due à la résistance entre le drain et la source (RDS(ON)) et est présente lorsque le courant circule. La perte de commutation est due à une combinaison de la charge de grille (Qg), de la charge de sortie (QOSS) et de la charge de récupération inverse (Qrr) qui sont reconstituées à chaque cycle de commutation. La tendance étant à l’augmentation des fréquences de commutation afin de réduire la taille des composants magnétiques, cette perte peut devenir significative à mesure que la fréquence de réapprovisionnement augmente.

Il est évident que plus les pertes de conduction et de commutation dans un MOSFET donné sont faibles, meilleure sera l’efficacité globale de conversion du système électrique.

Présentation des MOSFET PowerTrench® T10

Le redressement synchrone est désormais une technique essentielle dans toutes les applications de conversion d’énergie hautes performances, à courant élevé et basse tension, en particulier celles que l’on trouve dans les serveurs des centres de données. Dans ces applications, plusieurs paramètres du MOSFET, notamment RDS(ON), Qg, QOSS et Qrr affectent directement l’efficacité de conversion et les fabricants d’appareils cherchent des moyens de les réduire.

Les MOSFET PowerTrench T10 d’onsemi atteignent des valeurs ultra-faibles de Qg grâce à une nouvelle conception de tranchée à grille blindée et produisent des dispositifs avec un RDS(ON) inférieur à 1 mOhm. La dernière technologie PowerTrench T10 réduit non seulement le ringing, les overshoots et le bruit grâce à sa diode de corps à récupération douce, leader du marché, qui réduit également le Qrr. Cela permet d’obtenir un bon compromis entre les performances de résistance à l’état passant et le comportement de récupération tout en permettant également une commutation rapide à faible perte avec une bonne caractéristique de récupération inverse.

Dans l’ensemble, les améliorations paramétriques présentes dans les dispositifs PowerTrench T10 permettent d’améliorer l’efficacité des solutions d’alimentation à découpage à basse ou moyenne tension et à courant élevé. En général, les pertes de commutation sont améliorées jusqu’à 50 % par rapport aux dispositifs de la génération précédente, tandis que les pertes de conduction peuvent connaître une réduction de 30 à 40 %.

onsemi a introduit une série de familles 40 V et 80 V de la technologie PowerTrench T10. Le NTMFWS1D5N08X (boîtier SO8-FL 80 V, 1,43 mΩ, 5 mm x 6 mm) et le NTTFSSCH1D3N04XL (boîtier source down dual cool 40 V, 1,3 mΩ, 3,3 mm x 3,3 mm) offrent le meilleur facteur de mérite (figure of merit, FOM) de sa catégorie pour bloc d’alimentation (power supply unit, PSU) et convertisseur de bus intermédiaire (intermediate bus converter, IBC) dans les applications d’IA dans les centres de données. Ils atteignent une efficacité de 97,5 % du bloc d’alimentation et une efficacité de 98 % de l’exigence de l’IBC pour la spécification Open Rack V3.

La révolution de l’IA est à nos portes, et personne ne sait exactement ce qu’elle signifiera pour les centres de données en termes de besoins en alimentation électrique à l’avenir. Cependant, il est certain qu’une nouvelle série de défis se présente. La rareté des biens immobiliers et les limites du réseau électrique rendent difficile la recherche de nouveaux sites dotés d’une capacité suffisante. La demande totale d’énergie informatique critique monte en flèche, ce qui pèse lourdement sur les coûts d’électricité. Pour répondre à ces demandes, les propriétaires de centres de données ne se contentent pas de construire de nouvelles installations, mais ils repoussent également les limites de celles en existence, en visant des configurations plus denses en mégawatts par pied carré.

Avec des niveaux de puissance qui dépasseront certainement 100 kW, la conversion de puissance sera un objectif clé pour fournir des rendements qui fonctionnent à basse température, améliorant de manière fiable la densité de puissance et économisant de l’espace dans les centres de données modernes exigus.

La technologie PowerTrench T10 d’onsemi offre un RDS(ON) de pointe, une densité de puissance plus élevée, une réduction des pertes de commutation et de meilleures performances thermiques, réduisant ainsi le coût total du système. Les technologies innovantes de semiconducteurs de puissance telles que le PowerTrench T10 seront un élément clé de cet avenir.

https://www.onsemi.com/