Open source et agentic AI : le duo gagnant de l’infrastructure moderne

Temps de lecture : 5 min

Points clés à retenir

  • Modèles ouverts : NVIDIA s’engage sur la durée avec sa famille Nemotron, mise à jour régulièrement comme une bibliothèque logicielle.
  • Évaluation critique : Sans benchmarks adaptés aux cas réels, les développeurs peinent à juger la viabilité de leurs agents.
  • Tokenomics repensée : L’essor des architectures hybrides (SSM, MoE) réduit le coût des tokens sans sacrifier la qualité.

Un engagement durable envers les modèles ouverts

L’open source n’est pas un effet de mode. Pour que des modèles comme **NVIDIA Nemotron** deviennent des outils de production, il faut plus qu’un lancement : il faut un suivi continu. C’est exactement ce que NVIDIA a mis en place avec sa famille de modèles multimodaux, dédiée à l’**agentic AI**. Concrètement, cela signifie des mises à jour régulières, un support élargi et une intégration facilitée avec les librairies logicielles NVIDIA.

Kari Briski, VP Gen AI chez NVIDIA, le dit clairement : « Nous construisons ces modèles pour nous-mêmes, comme s’il s’agissait d’une bibliothèque que nous améliorons sans cesse. » Cette approche permet aux développeurs de déployer des agents nécessitant un **raisonnement avancé** et une efficacité de calcul élevée, tout en gardant le contrôle. Vous pouvez d’ailleurs expérimenter Nemotron 3 Nano sur un GPU Droplet DigitalOcean via ce tutoriel.

A Lire :  Optimiser l'inférence LLM : Gains 143% avec 2 GPU H100

L’évaluation, clé de voûte des agents fiables

Salman Paracha, SVP AI chez DigitalOcean, souligne le problème récurrent des développeurs : comment savoir si un agent est vraiment « assez bon » ? Sans **benchmarks solides** pour les cas réels – comme le code –, l’évaluation devient un casse-tête. Les académies ne fournissent pas toujours les données nécessaires, et sans standards, la viabilité d’une idée reste floue.

Pour y remédier, NVIDIA collabore avec des partenaires comme Synopsys et Cadence dans l’automatisation électronique, créant des jeux de tests spécifiques. « L’évaluation, c’est le point de départ », insiste Briski, avant d’ajouter que la création de benchmarks exige à la fois des connaissances humaines et des données étiquetées.

Sous-agents et traçabilité : le « divide and conquer » reste roi

Quand vous décomposez un problème en sous-tâches confiées à des agents spécialisés, la **traçabilité** devient indispensable. Briski insiste : « Il faut comprendre comment le système a été construit, même si l’agent écrit le code. » Sans références, on se retrouve face à une boîte noire. L’approche « diviser pour régner » reste la norme, couplée à des mécanismes de vérification et de test.

Vous voulez voir ça en action ? Jetez un œil à TradingAgents (un système multi-agents pour la simulation financière) : chaque sous-agent gère une partie du workflow, et l’architecte peut tracer le chemin.

Tokenomics : la valeur avant le compte de tokens

Avec des systèmes générant des tokens en continu, la question du coût est cruciale. Briski propose un changement de perspective : « Les architectures changent – nous devons compter les tokens différemment. » Au lieu de s’obséder sur le nombre, focalisons-nous sur la **valeur apportée** : workflow efficaces, livrables bien définis. C’est ce qui fait tourner une entreprise autour de l’IA.

A Lire :  Authentify : la solution ultime pour une vérification d'identité infaillible

Concrètement, NVIDIA intègre un **transformer à état hybride** dans Nemotron, combinant modèles denses et mixture-of-experts (MoE). L’utilisation de **state-space models (SSM)** supprime certaines couches d’attention pour le pré-traitement, réduisant la charge de calcul. Une optimisation directe des tokenomics.

L’open source accélère l’écosystème

NVIDIA ne garde pas tout pour elle. L’équipe de recherche appliquée scrute les papiers académiques, teste de nouvelles architectures et collabore ouvertement. Exemple frappant : le papier sur l’architecture hybride Mamba (début 2025) a été adopté par le modèle Qwen avant même son implémentation chez Nemotron. « L’open source permet ce partage d’idées », commente Briski.

DigitalOcean, de son côté, mise sur les **harnesses** (cadres d’orchestration) ouverts. Plano, la technologie data-plane, et les **small action models (SAM)** qui compressent le contexte pour les tâches spécifiques. L’objectif : laisser le choix aux développeurs, sans imposer de solution propriétaire. « Comment permettre le choix tout en soutenant l’écosystème ? », résume Paracha.

Des workloads qui changent en permanence

Les workflows multi-agents évoluent constamment. Briski note le passage de longs contextes en entrée à des contextes longs en sortie, avec des étapes intermédiaires encore floues. La **compression de contexte** et l’**optimisation des caches** sont les clés pour gérer des tâches de longue haleine. Les développeurs doivent se familiariser avec ces concepts pour bien gérer mémoire et puissance de calcul.

Chaque application legacy est une opportunité pour l’agentic AI

La puissance de calcul reste incontournable – les lois de scaling le prouvent – mais ce qui excite Briski, c’est de voir l’agentic AI infuser tous les domaines, bien au-delà du code. « Il y a tellement d’applications dans notre quotidien qui pourraient bénéficier d’agents », s’enthousiasme-t-elle.

A Lire :  Cloudways Copilot : un Agent IA SRE à grande échelle

DigitalOcean et NVIDIA construisent ensemble cette infrastructure. L’inférence serverless de DigitalOcean tourne sur des GPU Blackwell, les modèles Nemotron sont disponibles directement sur la plateforme, et les développeurs peuvent prototyper sur build.nvidia.com avant de déployer sur des GPU Droplets, sans refaire la stack. Avec l’intégration de **NVIDIA Dynamo 1.0** pour le scaling de l’inférence et le projet **NemoClaw** pour des agents sécurisés et toujours actifs, le chemin du prototype à la production n’a jamais été aussi direct.

Pour aller plus loin : Démarrez avec le cloud natif IA de DigitalOcean.