En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour vous proposer des contenus et services adaptés à vos centres d'intérêts. En savoir plus et gérer ces paramètres. OK X
 
 

 

 

Techniques

Libérer la puissance de l’intelligence artificielle

Par Carlos Mora, Market Development Manager, Corning Optical Communications

Publication: 12 octobre

Partagez sur
 
Résoudre l’énigme du câblage pour plus d’efficacité et de durabilité...
 

La demande en bande passante continue de croître, une tendance accélérée par l’essor de l’intelligence artificielle (IA). Aujourd’hui, l’IA nous aide déjà à découvrir de nouveaux niveaux d’efficacité avec des applications telles que ChatGPT qui deviennent essentielles pour de nombreuses personnes dans leur vie professionnelle et personnelle.

L’infrastructure essentielle qui sous-tend l’écosystème de l’IA, ce sont les centres de données. Pour fonctionner efficacement et correctement, tout se résume à d’énormes clusters d’unités de traitement graphique (GPU). Comment ces clusters peuvent-ils être configurés de manière intelligente et efficace, et quel rôle joue le câblage dans tout cela ?

Formation de l’IA avec les clusters de GPU

La formation de l’IA, qu’il s’agisse d’apprentissage automatique ou d’apprentissage profond, nécessite un grand nombre de GPU qui peuvent effectuer plusieurs calculs simultanément. Pour comprendre comment cela fonctionne, il est important de comprendre les différences entre les GPU et les unités centrales de traitement (CPU).

Si nous imaginons une cuisine étoilée Michelin, l’unité centrale de traitement est le chef cuisinier. Elle supervise toutes les opérations, prend les décisions clés et veille à ce que tout se passe bien. Elle est capable d’effectuer un grand nombre de tâches, mais elle n’est pas spécialisée dans un domaine particulier.

Le GPU est comme le sous-chef, qui se spécialise dans la préparation de certains plats. Le sous-chef peut préparer une grande quantité du même plat en même temps, ce qui est similaire à la façon dont un GPU peut traiter une grande quantité de données en même temps.

Configurer un Cluster de GPU

La plupart des réseaux utilisent l’architecture DGX-H100 SuperPOD de NVIDIA pour leurs charges de travail en IA. Cependant, nous commencerons bientôt à voir de nouveaux déploiements utilisant les nouveaux systèmes GB200 de NVIDIA. L’architecture DGX-H100 SuperPOD de NVIDIA peut suivre une disposition Middle of Row ou End of Row, cela dépendra finalement du client spécifique ou de la conception du centre de données (DC).

Chaque unité évolutive ou POD se compose de 32 serveurs H100avec un total de huit racks de serveurs. Chaque rack de serveurs contient quatre serveurs, ce qui donne un total de 256 GPU par POD. En fonction des besoins du client, un centre de données peut avoir un seul cluster composé de quatre unités évolutives et 1 024 GPU, ou il peut en comprendre jusqu’à 64 unités évolutives, soit plus de 16 000 GPU.

Ces serveurs peuvent être connectés soit par un câblage point à point, qui connecte chaque appareil directement à un autre, soit par un câblage structuré, qui utilise des composants supplémentaires pour gérer l’infrastructure de manière plus efficace, en particulier lorsque les appareils à connecter ne sont pas proches les uns des autres. Le choix du câblage soutiendra la configuration physique et la disposition des différents clusters de GPU, ce qui est crucial lors de la planification d’une installation d’IA.

Câblage point à point

Examinons d’abord le câblage point-à-point et considérons le plus petit cluster avec quatre unités évolutives et 1 024 GPU pour mieux comprendre comment cela fonctionne. Pour câbler ce cluster efficacement, les opérateurs ont besoin d’un nombre considérable de jarretières dont 1 024 câbles des serveurs vers les switchs pour connecter aux switchs leaf et 1 024 câbles pour les switchs leaf vers ceux du backbone. En présence de switchs InfiniBand Core ou Spine-Core, un nombre équivalent de câbles serait nécessaire. Dans ce petit cluster, l’infrastructure nécessite un total de 32 switchs leaf et 16 switchs backbone, formant l’architecture spine-andleaf pour la topologie du réseau du cluster.

Chaque serveur comprend huit GPU, chacun nécessitant une connexion. Les jarretières des GPU sont connectées aux switchs, généralement situé en Middle of Row ou End of Row. Ils doivent ensuite être connectés aux switchs backbone switch backbone, qui peut ne pas être physiquement proche. Cela signifie que chaque connexion effectuée des GPU individuels aux switchs leaf doit être reproduite, entraînant une grande quantité de câblage individuel qui prend beaucoup de place dans le centre de données.

Si nous considérons chaque connexion comme une jarretière individuelle, les opérateurs doivent tenir compte de la disponibilité des longueurs de câble spécifiques en fonction des capacités de leur fournisseur de câbles. Dans certains cas, cela peut entraîner un excès de longueur de câble (slack), qui demande d’être géré et occupe de l’espace. Cette approche du câblage point-àpoint présente des défis pour les opérateurs de centres de données dans la gestion de la densité de câblage et de la disponibilité de l’espace pour les cheminements de fibres/corbeilles pour toutes les connexions, y compris celles du serveur au switch leaf, de la feuille au switch backbone, et du backbone au switch core-spine. Ces défis deviennent particulièrement prononcés lors de la mise à l’échelle ou de l’expansion du cluster IA.

Le câblage structuré offre-t-il la solution ?

Un système de câblage structuré, quant à lui, implique le positionnement stratégique de tiroirs ou de coffrets dans le centre de données, permettant aux appareils d’être reliés au réseau par de jarretières courtes ou des assemblages de câbles multifibres. Les trunks multifibres fournissent des connexions durables qui existent entre les tiroirs et les boîtiers formant l’épine dorsale « structurée » de ce système, offrant ainsi une infrastructure de réseau durable et fiable. Cependant, le système permet également une certaine flexibilité, car les extrémités des jarretières et des assemblages de câbles multifibres peuvent être facilement connectées ou déconnectées.

Une approche dorsale utilisant des trunks multifibres consolide toutes les fibres nécessaires aux GPU en un seul câble de diamètre réduit, ce qui permet un gain de place considérable. Dans le câblage structuré, une jarretière ou un assemblage multifibre est utilisé depuis le GPU jusqu’à un tiroir, avec un trunk multifibre passant par le chemin de câbles jusqu’à un autre tiroir, puis une autre jarretière ou un assemblage multifibre jusqu’au switchs leaf. À partir de ce dernier, une combinaison similaire de composants utilisant un trunk multifibre comme backbone peut ensuite être acheminée vers la zone du switch spine, ce qui prend beaucoup moins de place dans les chemins de câbles ou les paniers de câbles optiques et est particulièrement utile si des distances plus importantes doivent être couvertes.

Quelle voie choisir ?

En fin de compte, le choix entre le câblage point à point et le câblage structuré dépend des besoins et des contraintes spécifiques du centre de données. Si le câblage point à point peut convenir dans certains scénarios, il est important d’explorer les avantages potentiels du câblage structuré, en particulier à mesure que la demande d’applications d’intelligence artificielle augmente et que la taille des clusters de GPU s’accroît. Le câblage point à point n’est pas aussi flexible et nécessite le déploiement d’un plus grand nombre de câbles, mais le câblage structuré est la solution la plus coûteuse. Toutefois, il ne faut pas oublier que le câblage point à point et le câblage structuré peuvent également être « mélangés » en fonction de leur emplacement ou de leur application dans le centre de données. Par exemple, un opérateur peut décider d’utiliser un câblage point à point pour la connexion entre le serveur et le switch leaf, mais d’utiliser un câblage structuré pour la connexion entre leaf et le switch backbone. Toutefois, ces coûts sont amortis sur une plus longue période, surtout si les grappes peuvent être étendues ou modifiées plus rapidement.

De plus, l’avènement de nouveaux développements, comme les systèmes GB200 de NVIDIA, représente des défis futurs que les opérateurs de centres de données devront relever. Ces systèmes avancés peuvent nécessiter une réévaluation des stratégies de câblage actuelles et des dispositions de l’infrastructure pour assurer des performances et une efficacité optimale.

Alors que le paysage de l’infrastructure des centres de données continue d’évoluer, les opérateurs doivent rester agiles et ouverts à l’adoption de nouvelles méthodes. Cela optimisera non seulement leurs opérations actuelles, mais les positionnera également pour intégrer sans heurts les technologies futures et répondre à la demande croissante des applications de l’IA.

Aider les centres de données à se développer rapidement et de manière responsable

Alors que nous envisageons l’avenir des clusters d’IA et de l’infrastructure des centres de données, la durabilité joue un rôle crucial. Les centres de données d’aujourd’hui, les centres de stockage massifs qui soutiennent les applications riches en données, doivent se développer pour traiter des flux croissants d’informations, en particulier à mesure que l’apprentissage automatique et l’intelligence artificielle deviennent partie intégrante d’un nombre croissant d’industries. Étant donné que l’énergie nécessaire pour faire fonctionner et refroidir les centres de données représente environ 1 % de la consommation électrique de la planète, il est impératif que les opérateurs se développent de manière responsable. Chez Corning, nous nous appuyons sur notre leadership en science des matériaux, nos processus de fabrication de pointe et notre expertise industrielle pour créer des produits qui contribuent à un monde plus durable.

Nous nous efforçons d’améliorer notre impact sur l’environnement tout au long de nos opérations et de notre chaîne de valeur en réduisant les ressources naturelles que nous utilisons, l’énergie que nous consommons et les déchets que nous produisons. Nous développons des câbles plus petits et plus denses en utilisant des fibres à haute performance de petit diamètre pour augmenter la capacité de transmission des données tout en réduisant jusqu’à 60 % de l’empreinte carbone. En mettant en oeuvre des conceptions de câbles innovantes, nous aidons les opérateurs de centres de données à atteindre leurs objectifs de durabilité tout en maintenant des capacités informatiques de haute performance.

L’intégration de ces solutions de câblage dans les clusters d’intelligence artificielle permettra aux opérateurs de centres de données non seulement d’améliorer les performances et l’efficacité, mais aussi de contribuer à un avenir plus résilient, plus équitable et davantage axé sur les données.

https://www.corning.com/

Suivez Electronique Mag sur le Web

 

Newsletter

Inscrivez-vous a la newsletter d'Electronique Mag pour recevoir, régulièrement, des nouvelles du site par courrier électronique.

Email: