Construire des agents IA fiables : les leçons des fondateurs

Temps de lecture : 6 min

Points clés à retenir

Fiabilité avant tout : Un agent IA performant en production repose sur une infrastructure de mesure et d’évaluation, pas seulement sur le modèle.
Modèle adapté : Choisir le modèle le plus simple et le moins cher qui satisfait aux exigences du produit, en équilibrant coût, latence, intelligence et capacité.
Exécution comme avantage : L’avantage concurrentiel ne vient pas de l’accès au modèle, mais de la fiabilité et des données propriétaires accumulées.

Sommaire

Accéder à un modèle performant ne suffit pas

Obtenir un modèle d’IA performant est devenu la partie la plus facile. Chaque équipe peut aujourd’hui accéder aux mêmes modèles de pointe via une API. Concrètement, ce qui fait la différence entre un produit fonctionnel et une simple démo, c’est tout ce qui entoure le modèle. Il faut mesurer si l’agent fait réellement son travail, puis améliorer sans cesse sa fiabilité jusqu’à ce qu’il cesse de commettre des erreurs coûteuses face aux utilisateurs réels.

J’ai animé une table ronde sur ce sujet lors de la conférence Deploy 2026 de DigitalOcean à San Francisco. Pendant quarante minutes, quatre fondateurs ont partagé ce qu’ils ont appris en mettant en production des agents IA dont les utilisateurs dépendent.

Voici les participants :

Angela Hoover, co-fondatrice et CEO d’Andi AI, un moteur de recherche grand public sans publicité qui combine IA générative et données web en direct pour fournir des réponses directes.
Alex Mashrabov, co-fondateur et CEO de Higgsfield AI, une plateforme de production vidéo cinématographique sans tournage physique.
Hovsep Seraydarian, co-fondateur et CTO de LawVo, une plateforme juridique canadienne qui associe des centaines d’agents IA spécialisés à des avocats vérifiant leur exactitude.
Peter Elias, fondateur de Probably, un agent d’analyse de données qui permet aux utilisateurs non techniques d’interroger leurs données en langage naturel.

La discussion a porté sur ce que chaque fondateur a sous-estimé une fois ses agents déployés à grande échelle, comment ils choisissent leurs modèles face à un paysage en constante évolution, ce que signifie réellement « agentique » en production, et d’où vient un avantage concurrentiel durable quand tout le monde construit sur les mêmes bases.

Ce que les fondateurs ont sous-estimé en production

Quand j’ai demandé aux fondateurs ce qu’ils avaient sous-estimé une fois leurs agents en production, aucun n’a pointé du doigt le modèle lui-même.

La créativité humaine reste clé

Higgsfield a passé un an en R&D sans obtenir de traction. Ce qui a finalement fait décoller le produit, c’est d’intégrer des personnes qui comprennent comment le travail créatif se déroule réellement, puis de les placer aux côtés des ingénieurs au quotidien. Alex explique : « Nous avons commencé à voir des résultats quand nous avons intégré des profils non techniques, comme d’anciens directeurs créatifs, qui travaillent désormais quotidiennement avec les ingénieurs pour rendre cette technologie puissante accessible aux créatifs. »

A Lire : Blablacar utilise l'IA pour conquérir 20 nouveaux pays : décryptage

Dans les domaines à fort enjeu, l’humain reste indispensable

LawVo pensait que ses agents pourraient fournir des conseils juridiques avec une intervention humaine minimale. Cette hypothèse n’a pas survécu au contact des utilisateurs réels. « Nous avons besoin d’avocats humains pour vérifier les données et tester ces agents chaque jour », confie Hovsep. Plus précisément, quand je lui ai demandé si ce rôle humain diminuerait à mesure que les agents deviendraient plus intelligents, il a répondu que c’était l’inverse. L’équipe observe ce que font les avocats et intègre leur jugement dans les agents, étape par étape, ce qui nécessite davantage de personnes, pas moins.

L’infrastructure de mesure est incontournable

Peter a souligné que l’un des premiers problèmes à résoudre lors de la construction d’un agent est l’infrastructure qui permet de savoir si le système fonctionne. Probably a traversé plusieurs itérations avant de mettre en place un système d’analyse qui surveille chaque action de l’agent. Aujourd’hui, le produit évalue son propre comportement. « Tant que nous enregistrons tout ce que fait l’IA, cette IA peut nous aider à améliorer ses propres performances », explique Peter.

Angela abonde dans le même sens : « Nous en sommes encore au début de la mise en œuvre des agents chez Andi. Quand on les laisse faire ce qu’ils veulent, ils font n’importe quoi. Il faut vraiment s’assurer qu’ils reçoivent des données de qualité, précises et fiables. Nous surveillons les agents que nous avons déployés ; nous ne les avons pas laissés être totalement autonomes. »

Sélectionner un modèle : un problème à quatre variables

Le nombre de modèles disponibles a explosé au cours de l’année écoulée. Les versions de pointe d’Anthropic et d’OpenAI sont suivies en quelques semaines par des alternatives open source. Les modèles performants sont désormais partout, mais choisir parmi des dizaines d’options, chacune avec un rapport coût-capacité différent, reste un défi.

Peter décompose la décision en quatre variables qu’il met toujours en balance : le coût, la latence, l’intelligence et la capacité. Les modèles plus petits sont généralement plus rapides et moins chers, mais sacrifient l’intelligence. Un agent qui effectue de nombreux appels parallèles se heurte rapidement à des limites de capacité. « Vous voulez utiliser le modèle le moins intelligent possible avant de descendre en dessous des performances requises par le produit », résume Peter.

Il met également en garde contre l’impatience des utilisateurs : « Les utilisateurs deviennent rapidement impatients. Nous avons constaté qu’ils étaient plus sensibles à la latence que nous ne le pensions. »

Chez Higgsfield, Alex exécute des évaluations chaque semaine pour s’assurer que les données propriétaires sur les actions des utilisateurs restent à jour à mesure que les modèles évoluent. Il s’est également éloigné du fine-tuning des petits modèles pour privilégier le prompting de modèles plus grands, ce qui, selon lui, est plus rapide et génère moins d’hallucinations.

A Lire : ChatGPT Knowledge Panels : La Nouvelle Frontière de la Recherche IA

La règle de Hovsep pour toute nouvelle startup est de commencer sur un modèle de pointe, mais de concevoir l’architecture pour l’indépendance. Ainsi, seule une petite partie du système dépend du LLM, le reste vivant dans votre propre application et orchestration. Angela a suivi la voie la plus économique : utiliser des modèles open source dès qu’ils étaient suffisamment performants à moindre coût.

« Agentique » ne signifie pas autonome

Aucun de ces fondateurs ne considère « agentique » comme synonyme d’autonome. Je leur ai demandé quels garde-fous sont nécessaires à mesure que les agents passent du statut de copilote à celui de systèmes agissant de manière indépendante.

Hovsep décrit un domaine juridique « dirigé par des dinosaures », où la régulation évolue lentement et où l’autonomie totale est simplement hors de question. « Les réglementations ne vous permettront pas d’être totalement autonome. Vous seriez littéralement fermé si vous le faisiez dans ce secteur. » Ce qui rend cette contrainte intéressante, c’est que les agents de LawVo surpassent déjà les avocats humains en termes de précision : « Nous avons une précision moyenne de 92% sur nos agents. Un avocat moyen a 87%. Si vous allez voir un avocat 100 fois, 13 fois il fera une erreur. Nous payons pour cela. »

Peter a critiqué le terme même d’« agent » : « L’agence est la capacité d’agir spontanément sans aucune entrée externe. Les LLM ne sont pas des agents. Ils n’ont pas d’agence. C’est pourquoi nous devons les guider. » Selon lui, un LLM n’agit jamais de lui-même. Vous le dirigez dans une direction et vous continuez à le pousser jusqu’à ce qu’il produise ce que vous voulez. « On le pique avec un bâton dans la direction où on veut qu’il aille. »

Cela a une conséquence pratique pour tout développeur : un modèle ne peut pas vérifier son propre travail de manière fiable. Empiler un modèle pour en vérifier un autre échoue généralement. Une personne reste donc dans la boucle pour valider. Peter cite l’expérience où Claude a été chargé de gérer un magasin et a perdu une somme d’argent considérable. Ce genre d’échec apparaît dès qu’on retire le jugement humain. Son avis sur la peur que l’IA remplace tout le monde est qu’elle est exagérée, car ces systèmes ne sont pas des agents au sens réel. Nous les appelons simplement ainsi.

Angela a résumé le travail réel d’un agent : construire un agent, c’est faire le prompting à la place du client. Une tâche qui nécessiterait cinquante invites manuelles est compressée en une seule étape. La personne énonce le résultat souhaité et le produit exécute les invites en arrière-plan, puis restitue le résultat final.

A Lire : Nvidia lâche OpenAI : La fin d'une ère pour l'IA générative ?

L’avantage concurrentiel réside dans l’exécution

L’accès aux modèles fondationnels devient une commodité. Les alternatives open source ne sont qu’à quelques semaines des versions de pointe, et n’importe quelle équipe peut construire sur la même intelligence. Quand tout le monde peut atteindre les mêmes modèles, qu’est-ce qui distingue vraiment une entreprise ?

Hovsep a un test simple : « Il y a des startups qui sont des projets scientifiques, et il y a des startups qui résolvent des problèmes concrets. Résolvez-vous un problème concret ? C’est tout. Cela s’arrête là pour moi. »

Peter décrit où va la valeur actuellement. Une partie va aux laboratoires qui entraînent les modèles. Une grande partie va aux plateformes d’inférence intermédiaires, qui gagnent énormément d’argent simplement en faisant tourner des GPU. La couche applicative conserve de la valeur parce qu’obtenir des produits fiables est réellement difficile, et cette fiabilité constitue l’avantage concurrentiel. « Je pourrais faire la course avec n’importe qui pour construire un agent, et le gagnant serait celui dont l’agent est le plus fiable le plus rapidement. Je gagnerai probablement cette course parce que j’ai passé deux ans à ne pas le faire échouer. C’est cela, l’avantage concurrentiel. »

La fiabilité se cumule aussi. Un produit qui fonctionne attire des utilisateurs, ces utilisateurs y déposent leurs données, et ces données améliorent la version suivante d’une manière que les concurrents ne peuvent pas copier. Peter souligne également la plus grande opportunité : le logiciel peut enfin parler un anglais simple, ce qui signifie que des catégories entières d’outils auparavant limitées à de petits marchés peuvent soudainement toucher beaucoup plus de personnes, car le seul frein était une interface trop complexe pour un utilisateur normal.

L’avantage propre à Angela est la données sous-jacente d’Andi. Né comme moteur de recherche grand public, il a révélé quelque chose de plus précieux : des données suffisamment précises pour que d’autres systèmes puissent en dépendre. Ces données sont devenues une activité en soi, car de plus en plus d’entreprises d’agents IA recherchent une source fiable pour étayer leurs réponses.

Angela résume : « Il y a beaucoup d’entreprises d’agents IA qui ont maintenant besoin d’accéder à des données de haute qualité, précises et fiables. Quand on est vraiment dans les tranchées à construire, on apprend des choses perspicaces, et ensuite on peut développer son avantage concurrentiel. »

Pour conclure, j’ai demandé à chaque fondateur un dernier conseil. Le fil conducteur était la demande. Alex l’a formulé comme un avertissement : trop d’entreprises d’IA construisent pour d’autres entreprises d’IA sans jamais vérifier si de vrais clients veulent ce qu’elles vendent. Angela a été plus directe : parlez à vos utilisateurs et testez leur volonté de payer le plus tôt possible. L’agent le plus performant du monde n’est qu’une démo tant qu’un client ne paie pas pour cela.

Nicolas D.

Développeur full-stack depuis 25 ans, je suis passé du PHP des années 2000 aux stacks modernes (Next.js, React Native, IA). J’accompagne entrepreneurs et créateurs dans leurs projets digitaux avec une approche pragmatique : du code aux résultats concrets.