« Le modèle marche bien. » C'est la phrase la plus dangereuse que j'entends en projet IA. Elle signifie deux choses différentes selon qui la prononce — et c'est précisément là que les projets dérapent.
01Quand un data scientist dit « le modèle marche bien »
Il dit que sur un benchmark — un dataset de référence, un set d'évaluation interne, parfois un score type BLEU ou ROUGE — le modèle obtient un chiffre satisfaisant. Ce chiffre n'a quasiment aucun rapport avec la performance métier réelle. Un LLM peut afficher 89% de précision sur un set technique et générer des réponses inacceptables pour un client final dans 1 cas sur 5. Les deux sont vrais en même temps.
02Quand un dirigeant dit « le modèle marche bien »
Il veut dire : « il fait gagner du temps à mes équipes, il ne nous fait pas perdre de clients, il ne nous expose pas juridiquement, et le coût total reste sous le ROI annoncé ». Ces quatre dimensions ne sont pas dans le benchmark technique. Elles ne le seront jamais. Pourtant ce sont elles qui décident si le projet est gardé ou tué.
03Le protocole d'éval métier qu'on néglige
Évaluer un LLM en métier ne se fait ni avec un score automatique ni avec « un humain qui valide à l'œil ». Il faut un protocole en trois axes, calibré sur le risque business du cas d'usage.
Axe 1 — La justesse métier. Pas la justesse linguistique, la justesse opérationnelle. Sur 100 réponses produites en conditions réelles, combien sont actionnables sans correction humaine ? Combien nécessitent une retouche mineure ? Combien sont à jeter ? Ces trois chiffres se mesurent à la main, sur un échantillon stratifié, par des métiers — pas par la DSI.
Axe 2 — Le risque résiduel. Quand le modèle se trompe, qu'est-ce que ça coûte ? Une erreur sur un email interne n'a pas le même poids qu'une erreur sur une réponse client engageante. La probabilité × l'impact donne un score de risque qu'il faut comparer au coût du process actuel sans IA. Si le risque résiduel est plus élevé qu'aujourd'hui, vous n'êtes pas prêts à déployer, quel que soit le score technique.
Axe 3 — La dérive dans le temps. Un LLM qui marche bien à la mise en production peut dériver en six mois. Les données changent, les usages aussi, le modèle sous-jacent est mis à jour par le fournisseur. Sans plan de ré-évaluation périodique — typiquement trimestriel — la performance se dégrade sans que personne ne s'en rende compte.
04Le test simple à faire avant de signer
Sur un projet client récent dans le secteur du service, l'éval technique était à 91%. L'éval métier, faite par 3 collaborateurs sur 200 cas réels stratifiés, donnait : 62% utilisable sans correction, 25% à corriger, 13% à jeter. Les chiffres ont divisé le périmètre cible par deux et augmenté la valeur réelle perçue par les équipes. Sans cette éval, on aurait déployé sur un périmètre trop large et le projet aurait été perçu comme un échec.
Avant de valider un déploiement, demandez à voir l'éval métier — pas l'éval technique. Si elle n'existe pas, le projet n'est pas mûr.
Sur quel cas d'usage votre équipe vous a-t-elle dit « le modèle marche bien » sans pouvoir vous montrer les chiffres métier ?
Vous travaillez sur un sujet similaire ? Le bon point de départ n’est pas une démo IA, mais une conversation sur le process, la décision et l’impact attendu.
