IA-washing en radiologie : comment distinguer le vrai du faux dans les promesses des éditeurs
Le problème : l'abus du terme « IA »
Depuis 2023, l'IA générative est à la mode. ChatGPT, Claude, Gemini ont popularisé les grands modèles de langage (LLMs). Dans l'industrie radiologique, cet engouement a créé une opportunité marketing idéale : ajouter le mot « IA » à un produit augmente instantanément sa valeur perçue.
Mais le problème est que le terme « IA » est extraordinairement vague. Il peut désigner :
- Une simple transcription vocale utilisant des modèles acoustiques (technique éprouvée depuis 15 ans)
- Un système de templates intelligents avec contrôle qualité (sophistiqué, mais déterministe)
- Un LLM générant du contenu en langage naturel (puissant, mais risqué)
- Un réseau de neurones analysant des images radiologiques (Computer Vision)
- Une combinaison de plusieurs de ces technologies
La SFNR (Société Française de Neuroradiologie) et d'autres sociétés savantes ont alerté sur ce problème : les radiologues doivent pouvoir distinguer les vraies capacités des outils qu'ils adoptent. Le risque ? Adopter un outil sous-évalué (niveau A présenté comme niveau C) ou, pire, survaluer un outil en croyant ses promesses marketing.
La classification en 3 niveaux : un cadre pour comprendre
Pour clarifier le paysage, nous proposons une classification simple et pragmatique. Elle repose sur la question : qu'est-ce que l'outil fait vraiment ?
Niveau A — Reconnaissance vocale (Speech-to-Text)
Ces outils convertissent la parole en texte. Ils utilisent des modèles acoustiques de deep learning, entraînés sur des millions d'heures d'audio. C'est une technologie mature et extrêmement efficace.
Qu'est-ce qu'on obtient au Niveau A ?
Une transcription fidèle de ce que le radiologue dicte. Pas de compréhension sémantique, pas de modification du texte, pas d'analyse d'image. Juste du parole vers du texte, de très haute qualité.
Exemples :
- Dragon Medical One : la référence depuis 15 ans. Modèles acoustiques ultra-optimisés pour les termes médicaux. Taux de précision >98% sur vocabulaire médical.
- Philips SpeechLive : STT intégré, couplé à des workflows radiologiques. Entraîné sur vocabulaire radiologique.
- Dictadoc : transcription + légère structuration de templates prédéfinis (reste principalement STT).
- VocalSoft : solution de niche, transcription + archivage.
Ces outils sont extrêmement utiles. Un bon STT élimine la frappe au clavier et accelere la rédaction de rapports. Mais il est malhonnête de les présenter comme de l'« IA générative ».
Point clé : Au niveau A, l'intelligence est dans le modèle acoustique. La compréhension du contenu reste absente.
Niveau B — Structuration + NLP/CAPD
Ces outils vont au-delà de la transcription. Ils apportent une intelligence structurelle : templates intelligents, arbres de décision, contrôle qualité automatisé. L'IA ici sert à mettre de l'ordre, à vérifier la complétude, à formater.
Qu'est-ce qu'on obtient au Niveau B ?
Un rapport mieux structuré, avec contrôles qualité intégrés. Vérification de la latéralité (pas d'erreur gauche/droite), complétude des sections, cohérence du vocabulaire. Pas de génération de contenu nouveau, mais une aide substantielle à la rédaction méthodique.
Exemples :
- Nova Report : >30 arbres de décision spécifiques à chaque type d'examen. Requête l'utilisateur de remplir des champs, structure le rapport en sections. Contrôle la complétude. Déterministe (pas d'aléatoire, pas de machine learning générative).
- Keydiag : modèles d'anatomie, schémas de localisation, templates guidés. Aide à la navigation et à la structuration. CAPD (Computer-Aided Preliminary Diagnosis) supporté.
- PowerScribe One : Smart Impression génère des suggestions basées sur histogrammes de dictées précédentes. Contrôle qualité. C'est du machine learning, mais appliqué à des patterns prédéfinis, pas de génération libre.
Ces outils représentent une vraie amélioration produit. L'intelligence n'est pas dans un LLM, mais dans la conception : les arbres de décision, les schémas de contrôle, les patterns reconnus sont sophistiqués.
Point clé : Au niveau B, l'IA aide à la structuration et au contrôle. Elle ne crée pas de contenu nouveau, elle organise mieux le contenu existant.
Niveau C — IA générative + Computer Vision
Ce sont les outils qui utilisent des LLMs ou des réseaux de neurones profonds pour générer du texte ou analyser des images. Deux briques peuvent coexister :
- Computer Vision (CV) : Analyse automatique des images radiologiques. Détecte des findings, propose des localisation, alerte sur des anomalies potentielles.
- LLM génératif : Génère du texte de rapport en langage naturel, compréhend le contexte, adapte le style.
Qu'est-ce qu'on obtient au Niveau C ?
Une assistance à l'écriture vraiment transformatrice. L'outil suggère du texte basé sur des images et des paramètres cliniques. Peut générer un brouillon de rapport en quelques secondes. Augmente drastiquement la productivité, mais demande une relecture vigilante du radiologue.
Exemples :
- Gleamer — AutoReport : Computer Vision analyse les images radiologiques, génère des rapports bruts. Hautement automatisé. Nécessite relecture. Entraîné sur échelle massive. Marché France croissant.
- Incepto Tango : Combine CV (analyse d'images), guidelines intégrées, génération de rapports structurés. Approche multimodale. Focus sur l'intégration clinique, pas juste l'automatisation.
- Milvue : Computer Vision pour localiser et décrire les findings. LLM chat intégré pour dialoguer avec le radiologue. Fusion image + texte. Workflow conversationnel novateur.
- Mata Flow : Approche propriétaire genAI + anti-hallucination. Entraîné spécifiquement sur radiologie. Met l'accent sur la fiabilité plutôt que l'autonomie brute. Pénètration croissante en France.
- Doctreen SPARK : TreeLearning (apprentissage structuré par arbres) + modèle Marty (propriétaire). Hybride entre structuration (niveau B) et génération (niveau C). Approche unique. Accent sur explicabilité et contrôle.
- RadReport : GenAI mobile, gratuit (modèle économique innovant). Génère des rapports complets. Accès démocratisé. Moins d'intégration que les solutions enterprise, mais puissante pour la mobilité.
Le niveau C offre un vrai saut de productivité. Mais il introduit aussi des risques nouveaux : les LLMs peuvent halluciner, générer des interprétations erronées, inventer des findings. Les modèles CV peuvent se tromper sur les images complexes ou rares.
Point clé : Au niveau C, l'IA génère du contenu. C'est puissant, mais demande un encadrement clinique strict (anti-hallucination, relecture, guardrails).
Les drapeaux rouges à surveiller
Questions à poser à un éditeur pour évaluer son outil
Interrogatoire clinique d'un nouvel outil IA
- Que transcrit-il ? "Transcrit-il simplement la dictée ? Quel modèle acoustique ? Quels langages supportés ?"
- Que restructure-t-il ? "Y a-t-il des templates, des arbres de décision, du contrôle qualité ? Combien de règles ?"
- Que génère-t-il ? "Utilise-t-il un LLM ? Lequel (GPT, Claude, propriétaire) ? Comment fonctionne la génération ?"
- Analyse-t-il les images ? "Y a-t-il du Computer Vision ? Entraîné sur quelles pathologies ? Quel taux de détection ?"
- Quels garde-fous ? "Comment évite-t-on les hallucinations ? Existe-t-il des alertes ? Un score de confiance ?"
- Quelles métriques ? "Sensibilité, spécificité, F1-score ? Études publiées ? Validation clinique ?"
- Conformité légale ? "Marquage CE ? HDS ? RGPD respecté ? Où sont les données stockées ?"
- Entraînement ? "Sur quelles données le modèle a-t-il appris ? Quelle population ? Quels biais potentiels ?"
- Limites connues ? "Quels types d'examens ? Quelles pathologies ? Où l'outil échoue-t-il ?"
- Relecture requise ? "Quel taux de modifications après relecture radiologue ? Cela reste-t-il gain de temps ?"
Table comparative : 12 outils classés par niveau RÉEL
| Outil | Niveau | Capacités principales | Forces | Limites | Justification |
|---|---|---|---|---|---|
| Dragon Medical One | Niveau A | STT médical haute précision | Précision >98%, maturité éprouvée, standard industrie | Pas de structuration, pas de génération | Pure reconnaissance vocale. Pas d'IA générative. |
| Philips SpeechLive | Niveau A | STT + workflows radiologiques | Intégration radiologie, vocabulaire spécialisé, HDS compliant | Pas de génération autonome | Principalement STT avec hooks radiologiques. Reste Niveau A. |
| Dictadoc | Niveau A | STT + templates légers | Simplicité, intégration EMR facile | Peu de structuration, pas de CV | Coeur de la solution = transcription. Templates secondaires. |
| Nova Report | Niveau B | 30+ arbres de décision, contrôle qualité, structuration | Extrêmement robuste, pas de hallucination possible, bien validé cliniquement | Déterministe, peu flexible, ne génère pas de contenu nouveau | Structuration sophistiquée + contrôle qualité. Zéro génération. Niveau B pur. |
| Keydiag | Niveau B | Modèles anatomiques, templates guidés, CAPD | Aide visuelle, navigation intuitive, réduit erreurs de structure | Pas d'analyse image auto, pas de génération de texte | Intelligence dans la structuration et les schémas. Pas de CV, pas de LLM. |
| PowerScribe One | Niveau B | Smart Impression, contrôle qualité, prédictions textuelles | Maturité Nuance, intégration RIS complète, fiable | Smart Impression = prédiction sur patterns, pas génération libre | ML appliqué à des patterns prédéfinis. Structuration + assistance texte basée règles. Niveau B. |
| Gleamer AutoReport | Niveau C | CV image + génération rapports, forte automatisation | Vitesse extrême, haute scalabilité, déjà en clinique | Nécessite relecture stricte, risque hallucination CV, pathologies rares non couvertes | Computer Vision analyse images, génère rapports bruts. Plein Niveau C avec risques. |
| Incepto Tango | Niveau C | CV + guidelines intégrées + génération structurée | Multimodal, prise en compte guidelines cliniques, approach hybrid | Complexité intégration, relecture importante si guidelines mal alignées | CV + génération avec scaffold de guidelines. Niveau C encadré. |
| Milvue | Niveau C | CV localisation + LLM chat conversationnel | Workflow novateur, interaction radiologue-IA intuitive, fusion image-texte | Immaturité relative, peu de données de terrain long-term | CV + LLM chat. Génération via conversation. Niveau C conversationnel. |
| Mata Flow | Niveau C | GenAI + anti-hallucination propriétaire, focus fiabilité | Approche explicable, risque hallucination réduit par design, croissance France | Moins d'études comparatives publiques que concurrents | GenAI avec guardrails renforcés. Niveau C mais avec contrôles élargis. |
| Doctreen SPARK | Niveau C | TreeLearning + modèle Marty, hybride B/C, explicable | Approche unique combinant structure et génération, transparence élaborée | Peu de références market, traction France encore en phase growth | Hybride innovant : arborescence + génération. Classé C car capacité génération, mais plus encadré que pur LLM. |
| RadReport | Niveau C | GenAI mobile, rapports complets, gratuit | Accessibilité, prix zéro, mobilité, démocratisation | Intégration minimale RIS, moins de clinique encadrement que solutions enterprise, donnée mobile = risque | GenAI pur. Génère rapports. Risque hallucination, mais accessibilité majeure. Niveau C léger. |
L'alerte de la SFNR : automation bias et limites des LLMs
La Société Française de Neuroradiologie a publié des avertissements importants sur l'IA en radiologie. Points clés :
Quand choisir quel niveau ?
Choisir Niveau A (Reconnaissance vocale) si :
- Vous dictez beaucoup et cherchez à éliminer la frappe clavier
- Vous avez une équipe radiologiste petite ou dispersée (transcription distance-friendly)
- Vous avez peu de ressources IT (STT est simple à déployer)
- Vous voulez une solution mature, sans risque technologique
- La structuration des rapports est déjà bonne (vous ne cherchez pas à améliorer format)
Choisir Niveau B (Structuration) si :
- Vos rapports manquent de structuration ou d'homogénéité
- Vous avez des examens complexes avec beaucoup de paramètres à vérifier (latéralité, localisation, complétude)
- Vous voulez un outil robuste sans risque d'hallucination
- Votre équipe IT peut gérer des workflows plus élaborés
- Vous avez certaines certifications spécifiques (PACS, RIS) qui demandent des formats de rapport stricts
Choisir Niveau C (IA générative) si :
- Vous cherchez une vraie augmentation de productivité (génération semi-autonome)
- Vous avez les ressources cliniques pour relire chaque rapport généré (temps + expertise)
- Votre contexte de travail permet une intégration progressive (pilote d'abord)
- L'outil a forte validation clinique et mécanismes anti-hallucination documentés
- Vous pouvez investir dans formation et changement organisationnel (c'est un outil disruptif)
Comment conduire une évaluation honnête
Ne vous contentez pas des démos marketing. Voici une approche rigoureuse :
- Pilot limité : Testez l'outil sur 100-200 examens pendant 4-6 semaines. Mesurer temps requis, taux d'édition, satisfaisaction radiologue.
- Mesurer réel : Temps moyen par rapport (avant/après), nombre de modifications, relecture requise.
- Vérifier sécurité : Y a-t-il des cas où l'outil a raté un finding ? Comparer avec votre taux d'erreur baseline.
- Coût total : Prix logiciel + coûts intégration + coûts formation + temps relecture. Le vrai ROI.
- Conformité : Vérifier CE, HDS, RGPD avant décision finale.
- Avis radiologue : Demander à 3-4 radiologues "aimerais-tu utiliser ça quotidiennement ?" Leur retour honnête est or.
Conclusion : trois niveaux, trois stratégies
Les outils Niveau A (transcription) sont excellents. Une bonne reconnaissance vocale élimine la frappe clavier et augmente la fluidité. Dragon Medical One, Philips SpeechLive et autres ont 15 ans de maturité. Si c'est un besoin, adoptez-le sans culpabilité.
Les outils Niveau B (structuration) sont robustes et sous-estimés. Nova Report, Keydiag et PowerScribe One ne sont pas "IA générative", mais ils apportent une valeur clinique réelle en imposant la rigueur et en réduisant les erreurs. Pas glamour, mais efficace.
Les outils Niveau C (génération + CV) sont transformatifs mais demandent vigilance. Gleamer, Incepto Tango, Milvue, Mata Flow, Doctreen SPARK et RadReport peuvent vraiment changer la productivité. Mais sans garde-fous clairs (anti-hallucination, relecture obliga, formation), c'est du Roulette russe clinique.
Le IA-washing disparaîtra quand les radiologues poseront des questions claires et exigeront des réponses honnêtes. Demandez-le : est-ce transcription ? Structuration ? Génération ? Analyse d'image ? Si l'éditeur ne peut pas répondre précisément, ce n'est pas un outil fiable.
L'IA en radiologie est une opportunité réelle. Mais elle ne doit pas être fondée sur du marketing flou. La clarté technique est le seul fondement d'une adoption responsable.
Questions fréquemment posées
Niveau B (Structuration + NLP/CAPD) : Templates, arbres de décision, contrôle qualité intelligents. Aide à la structuration sans génération. Exemples : Nova Report, Keydiag, PowerScribe One.
Niveau C (IA générative / Computer Vision) : LLMs générant du texte et/ou Computer Vision analysant les images. Exemples : Gleamer AutoReport, Incepto Tango, Milvue, Mata Flow, Doctreen SPARK, RadReport.