Accueil - A la Une Pénurie de GPU Nvidia : Multiplication des projets IA oblige… Les DSI...

Pénurie de GPU Nvidia : Multiplication des projets IA oblige… Les DSI comptaient sur Nvidia pour augmenter leur capacité de calcul IA

0
3

La-Tribune Economique (Pénurie de GPU Nvidia) – Il existe peut-être de meilleures options pour les entreprises qui ont du mal à se procurer suffisamment de puces Nvidia pour mener à bien leur stratégie en matière d’IA.

L’affirmation de Colette Kress, directrice financière de Nvidia, selon laquelle « les clouds sont en rupture de stock et notre base installée de GPU […] est pleinement utilisée » a peut-être ravi les actionnaires qui écoutaient la conférence téléphonique sur les résultats de l’entreprise mercredi dernier, mais c’est une mauvaise nouvelle pour les DSI et les responsables de centres de données qui comptaient sur Nvidia pour augmenter leur capacité de calcul IA, car ils devront changer de fournisseur ou modifier leurs projets. Interrogé lors de la même conférence téléphonique sur la question de savoir s’il voyait un moyen réaliste de rattraper la demande au cours des 12 à 18 prochains mois, le CEO Jensen Huang a affirmé que tout se déroulait comme prévu, déclarant : « Nous avons fait un excellent travail de planification de notre chaîne d’approvisionnement. La chaîne d’approvisionnement de Nvidia comprend pratiquement toutes les entreprises technologiques du monde. » Tout le monde n’est pas convaincu. Parmi les sceptiques figure Alvin Nguyen, analyste senior chez Forrester, qui a déclaré jeudi que certains de ses clients lui avaient demandé comment faire face à la pénurie de GPU Nvidia, la demande dépassant largement l’offre. Il existe, selon lui, « d’autres options à la fois sur site (AMD, Intel, ASIC personnalisés, CPU, accélérateurs…) et dans le cloud (TPU, ASIC personnalisés…), mais la demande est telle que ces options pourraient ne pas suffire pour répondre aux ambitions de chacun en matière d’IA ». M. Nguyen a ajouté : « Pour les entreprises et leurs directeurs informatiques, ne pas pouvoir obtenir l’infrastructure IA nécessaire pour réaliser pleinement leur vision de l’IA signifie réévaluer ces ambitions et les ramener à ce qui est possible. Tirer parti des plateformes et des services IA fournis par d’autres (Salesforce,ServiceNow, etc.) peut aider à atténuer certains besoins. » Selon Alvin Nguyen, les métiers devraient également envisager de travailler avec des modèles plus petits, dont les besoins en infrastructure sont réduits, et de les tester afin d’éclairer leurs futures décisions en matière d’IA. Les innovations constantes dans ce domaine, a expliqué l’analyste, « peuvent aider les entreprises à constituer ou à réduire leur dette technique en fonction de ce qu’elles décident de leur infrastructure et du moment où elles le font. Je sais que c’est une réponse qui dépend de nombreux facteurs, mais tout évolue si rapidement que les réponses ne sont claires qu’avec le recul. » 

« Tout va très vite » 

Matt Kimball, analyste principal chez Moor Insights & Strategy, estime que la question concernant Nvidia et la disponibilité des GPU est pertinente. « Certaines des difficultés auxquelles sont confrontées les entreprises pourraient être évitées si l’on réfléchissait à la taille adéquate de l’infrastructure », note-t-il. Il a souligné que « les GPU Nvidia (ou n’importe quelle autre puce d’ailleurs) ont des profils de performances différents, ainsi que des profils de performances par watt et par dollar différents. Le dernier accélérateur [Nvidia] GB300 n’est pas toujours le mieux adapté à une tâche. Et lorsque nous faisons la distinction entre l’entraînement et l’inférence, cette approche consistant à dimensionner la solution en fonction des besoins est encore plus cruciale. »  En procédant ainsi, a souligné M. Kimball, « les entreprises se rendront compte qu’elles sont moins dépendantes d’une puce de dernière génération pour laquelle une longue liste de clients (beaucoup plus importants) font la queue et attendent la livraison. L’autre exercice consiste à se demander si les puces Nvidia sont toujours nécessaires pour répondre pour vos besoins. Je sais que cela peut sembler être une hérésie technologique. Néanmoins, en particulier en ce qui concerne l’inférence, il est utile de comprendre à quoi ressemble l’environnement d’inférence, où l’infrastructure est déployée et ce qu’implique la charge de travail. » 

Les accélérateurs Instinct d’AMD (MI300/ MI325/ MI350…) sont aujourd’hui une des alternatives crédibles à la gamme Nvidia (H100/H200/B200…) pour l’IA et le HPC, avec un gros avantage sur la capacité mémoire et souvent sur le coût par GPU. (Crédit Pierre Khan)

Il se peut très bien qu’une solution basée sur un ASIC soit mieux adaptée à cet environnement en temps réel piloté par des capteurs sur une plate-forme pétrolière, par exemple, a-t-il observé. Et, l’analyste complète : « Je ne dis évidemment pas qu’il ne faut pas acquérir de pucesNvidia. Cependant, indépendamment des problèmes liés à la chaîne d’approvisionnement, il est très utile de réfléchir de manière globale à vos besoins en matière d’IA et de miser sur l’accélération la mieux adaptée à vos besoins. » En outre, il ajoute : « Le cloud est toujours une option. Ce sont les premiers clients de Nvidia, et il est tout à fait naturel de tirer parti du cloud pour les besoins en matière d’IA. »

La clé pour les DSI : être proactif 

Gaurav Gupta, vice-président analyste chez Gartner, a donné le conseil suivant : « Même si Nvidia continue d’affirmer qu’elle contrôle parfaitement sa chaîne d’approvisionnement, celle-ci est tellement complexe que les DSI devraient en faire une priorité. » Il a ajouté : « Non seulement il existe des risques de pénurie pour certains aspects bien connus, tels que les waffers, les emballages avancés et la mémoire HBM [mémoire à bande passante élevée], mais à mon avis, ce sont les contraintes méconnues liées aux composants plus petits et aux pièces de machines de précision pour la gestion thermique, le refroidissement liquide et les racks de serveurs qui pourraient constituer des goulots d’étranglement. De plus, tout le monde doit prévoir l’alimentation électrique nécessaire au fonctionnement de ces centres de données. » Selon M. Gupta, la clé est d’être proactif, de planifier à l’avance et de « ne pas être le dernier dans la file d’attente » lorsqu’il s’agit de commander des ressources informatiques telles que des GPU. 

Scott Bickley, analyste chez Info-Tech Research Group, a fait remarquer que « le monde commence à se demander comment Nvidia va passer d’un chiffre d’affaires annuel d’environ 250 milliards de dollars à 350 milliards, puis à plus de 500 milliards. Pourtant, ils ont clairement déclaré que tous les puces disponibles étaient épuisés et qu’ils auraient pu en vendre davantage s’ils avaient eu des stocks. Il est raisonnable d’examiner de près cette chaîne d’approvisionnement incroyablement complexe et fragile et de se poser la question suivante : « Que se passerait-il en cas de défaillance matérielle limitant les livraisons de GPU ? » Les risques liés à la chaîne d’approvisionnement, a-t-il déclaré, « sont de nature multiple ; cependant, il est clair que Nvidia est le client numéro un de tous ses fournisseurs, ce qui entraîne une allocation excessive de ressources pour garantir le bon déroulement de la production. Toute perturbation serait probablement liée aux matériaux plutôt qu’à un problème de processus ou de main-d’œuvre de la part de leurs fournisseurs. » 

Il a ajouté : « Les événements géopolitiques seraient la cause la plus probable de tout type de perturbation à moyen ou long terme, comme par exemple les tensions entre la Chine et Taïwan, l’expansion du conflit entre la Russie et l’Ukraine ou l’escalade de la guerre commerciale entre les États-Unis et la Chine. » Pour les événements à faible impact, il a déclaré : « [Nvidia] fait un excellent travail en fixant des objectifs de livraison prudents pour Wall Street, qu’elle dépasse presque invariablement trimestre après trimestre. Cela lui permet d’absorber les contretemps liés à la main-d’œuvre, aux processus ou à la géopolitique tout en atteignant ses objectifs déclarés. Les volumes de livraison peuvent ne pas dépasser les objectifs, mais les livraisons continueraient à circuler ; après tout, les épices doivent circuler. » Dans le pire des cas, où les expéditions sont fortement affectées, les entreprises qui ne sont pas de grands consommateurs de cloud et qui n’ont pas d’influence sur les fournisseurs limités dans ce domaine ont peu de recours, a ajouté M. Bickley. 

Les entreprises rejoignent une « très longue file d’attente » 

Selon Sanchit Vir Gogia, analyste en chef chez Greyhound Research, les résultats financiers de Nvidia « confirment que le goulot d’étranglement de l’IA dans les entreprises n’est plus une question d’imagination ou de budget. C’est la capacité. Nvidia a déclaré un chiffre d’affaires trimestriel de 57 milliards de dollars, dont plus de 51 milliards provenant uniquement des clients des centres de données, mais s’est néanmoins décrite comme confrontée à des contraintes d’approvisionnement à des niveaux records. » Les GPU Blackwell et Blackwell Ultra, a-t-il déclaré, sont devenus la monnaie par défaut des infrastructures IA, mais même avec un rythme de production d’environ 1 000 baies GPU par semaine, l’entreprise ne peut pas répondre à la demande. 

Les engagements à long terme en matière d’approvisionnement et de capacité, a déclaré M. Gogia, « s’élèvent désormais à environ 50,3 milliards de dollars, et les contrats de services cloud pluriannuels ont bondi à 26 milliards de dollars, ce qui signifie qu’une grande partie de la prochaine vague de capacité a déjà été pré-réservée par les hyperscalers et les centres de recherche. Les entreprises n’entrent pas sur un marché ouvert. Elles rejoignent la fin d’une très longue file d’attente. » Selon lui, le déséquilibre de l’offre « ne concerne pas seulement les puces. Il concerne tout ce qui les entoure. Les documents déposés font état de longs délais de fabrication, d’une disponibilité limitée des conditionnements avancés et des mémoires à bande passante élevée, ainsi que de prépaiements importants et d’engagements irrévocables pour garantir la capacité future ». 

M. Gogia a également suggéré que la décision la plus importante pour les DSI aujourd’hui « est de savoir s’ils doivent concevoir leur stratégie IA autour de Nvidia ou autour du risque lié à Nvidia. Ce ne sont pas des positions équivalentes. Concevoir autour de Nvidia, c’est accepter que la plateforme est la référence absolue et s’y fier en passant des commandes 12 mois à l’avance, en utilisant plusieurs équipementiers pour la même configuration, en coordonnant les paiements anticipés avec les équipes financières et en établissant des calendriers de programme capables d’absorber les variations de livraison. » Concevoir autour du risque, a-t-il déclaré, « c’est reconnaître que Nvidia est essentiel, mais ne peut être la seule voie, et considérer la diversification comme une mesure de résilience plutôt que comme un débat philosophique ».