Article 5 📅 3 avril 2026 ⏱️ 12 min de lecture ✍️ Comparatif IA Radiologie

IA-washing en radiologie : comment distinguer le vrai du faux dans les promesses des éditeurs

Q: Quels sont les 3 niveaux de la classification IA en radiologie ?

Niveau A (Reconnaissance vocale) : Transcription STT avec modèles acoustiques. Niveau B (Structuration) : Templates, arbres de décision, contrôle qualité avec NLP/CAPD. Niveau C (IA générative) : LLMs générant du texte et Computer Vision analysant des images. Chaque niveau a des capacités et des limites différentes. Les trois sont utiles mais ne doivent pas être présentés de la même manière.

Le terme « IA » est partout en radiologie, mais il cache des réalités très différentes. Un éditeur peut vendre une simple transcription vocale comme une « solution IA générative révolutionnaire ». D'autres habillent d'un costume technologique des outils qui ont 20 ans d'âge. Il est temps de clarifier : quels sont les vraies capacités technologiques des logiciels radiologiques ? Comment évaluer un outil sans se laisser piéger par le marketing ?

Le problème : l'abus du terme « IA »

Depuis 2023, l'IA générative est à la mode. ChatGPT, Claude, Gemini ont popularisé les grands modèles de langage (LLMs). Dans l'industrie radiologique, cet engouement a créé une opportunité marketing idéale : ajouter le mot « IA » à un produit augmente instantanément sa valeur perçue.

Mais le problème est que le terme « IA » est extraordinairement vague. Il peut désigner :

Une simple transcription vocale utilisant des modèles acoustiques (technique éprouvée depuis 15 ans)
Un système de templates intelligents avec contrôle qualité (sophistiqué, mais déterministe)
Un LLM générant du contenu en langage naturel (puissant, mais risqué)
Un réseau de neurones analysant des images radiologiques (Computer Vision)
Une combinaison de plusieurs de ces technologies

La SFNR (Société Française de Neuroradiologie) et d'autres sociétés savantes ont alerté sur ce problème : les radiologues doivent pouvoir distinguer les vraies capacités des outils qu'ils adoptent. Le risque ? Adopter un outil sous-évalué (niveau A présenté comme niveau C) ou, pire, survaluer un outil en croyant ses promesses marketing.

La classification en 3 niveaux : un cadre pour comprendre

Pour clarifier le paysage, nous proposons une classification simple et pragmatique. Elle repose sur la question : qu'est-ce que l'outil fait vraiment ?

Niveau A — Reconnaissance vocale (Speech-to-Text)

Ces outils convertissent la parole en texte. Ils utilisent des modèles acoustiques de deep learning, entraînés sur des millions d'heures d'audio. C'est une technologie mature et extrêmement efficace.

Qu'est-ce qu'on obtient au Niveau A ?

Une transcription fidèle de ce que le radiologue dicte. Pas de compréhension sémantique, pas de modification du texte, pas d'analyse d'image. Juste du parole vers du texte, de très haute qualité.

Exemples :

Dragon Medical One : la référence depuis 15 ans. Modèles acoustiques ultra-optimisés pour les termes médicaux. Taux de précision >98% sur vocabulaire médical.
Philips SpeechLive : STT intégré, couplé à des workflows radiologiques. Entraîné sur vocabulaire radiologique.
Dictadoc : transcription + légère structuration de templates prédéfinis (reste principalement STT).
VocalSoft : solution de niche, transcription + archivage.

Ces outils sont extrêmement utiles. Un bon STT élimine la frappe au clavier et accelere la rédaction de rapports. Mais il est malhonnête de les présenter comme de l'« IA générative ».

Point clé : Au niveau A, l'intelligence est dans le modèle acoustique. La compréhension du contenu reste absente.

Niveau B — Structuration + NLP/CAPD

Ces outils vont au-delà de la transcription. Ils apportent une intelligence structurelle : templates intelligents, arbres de décision, contrôle qualité automatisé. L'IA ici sert à mettre de l'ordre, à vérifier la complétude, à formater.

Qu'est-ce qu'on obtient au Niveau B ?

Un rapport mieux structuré, avec contrôles qualité intégrés. Vérification de la latéralité (pas d'erreur gauche/droite), complétude des sections, cohérence du vocabulaire. Pas de génération de contenu nouveau, mais une aide substantielle à la rédaction méthodique.

Exemples :

Nova Report : >30 arbres de décision spécifiques à chaque type d'examen. Requête l'utilisateur de remplir des champs, structure le rapport en sections. Contrôle la complétude. Déterministe (pas d'aléatoire, pas de machine learning générative).
Keydiag : modèles d'anatomie, schémas de localisation, templates guidés. Aide à la navigation et à la structuration. CAPD (Computer-Aided Preliminary Diagnosis) supporté.
PowerScribe One : Smart Impression génère des suggestions basées sur histogrammes de dictées précédentes. Contrôle qualité. C'est du machine learning, mais appliqué à des patterns prédéfinis, pas de génération libre.

Ces outils représentent une vraie amélioration produit. L'intelligence n'est pas dans un LLM, mais dans la conception : les arbres de décision, les schémas de contrôle, les patterns reconnus sont sophistiqués.

Point clé : Au niveau B, l'IA aide à la structuration et au contrôle. Elle ne crée pas de contenu nouveau, elle organise mieux le contenu existant.

Niveau C — IA générative + Computer Vision

Ce sont les outils qui utilisent des LLMs ou des réseaux de neurones profonds pour générer du texte ou analyser des images. Deux briques peuvent coexister :

Computer Vision (CV) : Analyse automatique des images radiologiques. Détecte des findings, propose des localisation, alerte sur des anomalies potentielles.
LLM génératif : Génère du texte de rapport en langage naturel, compréhend le contexte, adapte le style.

Qu'est-ce qu'on obtient au Niveau C ?

Une assistance à l'écriture vraiment transformatrice. L'outil suggère du texte basé sur des images et des paramètres cliniques. Peut générer un brouillon de rapport en quelques secondes. Augmente drastiquement la productivité, mais demande une relecture vigilante du radiologue.

Exemples :

Gleamer — AutoReport : Computer Vision analyse les images radiologiques, génère des rapports bruts. Hautement automatisé. Nécessite relecture. Entraîné sur échelle massive. Marché France croissant.
Incepto Tango : Combine CV (analyse d'images), guidelines intégrées, génération de rapports structurés. Approche multimodale. Focus sur l'intégration clinique, pas juste l'automatisation.
Milvue : Computer Vision pour localiser et décrire les findings. LLM chat intégré pour dialoguer avec le radiologue. Fusion image + texte. Workflow conversationnel novateur.
Mata Flow : Approche propriétaire genAI + anti-hallucination. Entraîné spécifiquement sur radiologie. Met l'accent sur la fiabilité plutôt que l'autonomie brute. Pénètration croissante en France.
Doctreen SPARK : TreeLearning (apprentissage structuré par arbres) + modèle Marty (propriétaire). Hybride entre structuration (niveau B) et génération (niveau C). Approche unique. Accent sur explicabilité et contrôle.
RadReport : GenAI mobile, gratuit (modèle économique innovant). Génère des rapports complets. Accès démocratisé. Moins d'intégration que les solutions enterprise, mais puissante pour la mobilité.

Le niveau C offre un vrai saut de productivité. Mais il introduit aussi des risques nouveaux : les LLMs peuvent halluciner, générer des interprétations erronées, inventer des findings. Les modèles CV peuvent se tromper sur les images complexes ou rares.

Point clé : Au niveau C, l'IA génère du contenu. C'est puissant, mais demande un encadrement clinique strict (anti-hallucination, relecture, guardrails).

Les drapeaux rouges à surveiller

🚩 Le marketing parle d'« IA » sans préciser quel type. Si l'éditeur ne dit pas clairement s'il s'agit de transcription, structuration ou génération, c'est un signal d'alerte. Une vraie solution assume ses capacités.

🚩 Aucune métrique de performance publiée. Un outil génuin fournit des taux de précision, des études validées, des benchmarks. Si l'éditeur refuse de publier des résultats, demandez-vous pourquoi.

🚩 Pas de marquage CE ou HDS (Hébergement de Données de Santé). En France, un logiciel médical doit respecter les règlementations. L'absence de marquage CE est un drapeau rouge majeur. HDS manquant = risque légal.

🚩 Revendications de « rapports 100% autonomes ». Aucun outil au monde ne peut générer des rapports radiologiques 100% autonomes sans erreur. Ceux qui le promettent mentent ou n'ont pas compris la clinique. La relecture médicale est incontournable.

🚩 Pas de garde-fous anti-hallucination clairement documentés. Au niveau C, sans mécanismes de contrôle (validation croisée, détection de conflit, alertes sur confiance faible), le risque de génération erronée est énorme.

🚩 Documentation technique vague ou absente. Un éditeur sérieux documente son architecture : comment fonctionne le CV ? Quel LLM est utilisé ? Comment sont gérées les données ? L'absence de doc technique = manque de confiance.

Questions à poser à un éditeur pour évaluer son outil

Interrogatoire clinique d'un nouvel outil IA

Que transcrit-il ? "Transcrit-il simplement la dictée ? Quel modèle acoustique ? Quels langages supportés ?"
Que restructure-t-il ? "Y a-t-il des templates, des arbres de décision, du contrôle qualité ? Combien de règles ?"
Que génère-t-il ? "Utilise-t-il un LLM ? Lequel (GPT, Claude, propriétaire) ? Comment fonctionne la génération ?"
Analyse-t-il les images ? "Y a-t-il du Computer Vision ? Entraîné sur quelles pathologies ? Quel taux de détection ?"
Quels garde-fous ? "Comment évite-t-on les hallucinations ? Existe-t-il des alertes ? Un score de confiance ?"
Quelles métriques ? "Sensibilité, spécificité, F1-score ? Études publiées ? Validation clinique ?"
Conformité légale ? "Marquage CE ? HDS ? RGPD respecté ? Où sont les données stockées ?"
Entraînement ? "Sur quelles données le modèle a-t-il appris ? Quelle population ? Quels biais potentiels ?"
Limites connues ? "Quels types d'examens ? Quelles pathologies ? Où l'outil échoue-t-il ?"
Relecture requise ? "Quel taux de modifications après relecture radiologue ? Cela reste-t-il gain de temps ?"

Table comparative : 12 outils classés par niveau RÉEL

Outil	Niveau	Capacités principales	Forces	Limites	Justification
Dragon Medical One	Niveau A	STT médical haute précision	Précision >98%, maturité éprouvée, standard industrie	Pas de structuration, pas de génération	Pure reconnaissance vocale. Pas d'IA générative.
Philips SpeechLive	Niveau A	STT + workflows radiologiques	Intégration radiologie, vocabulaire spécialisé, HDS compliant	Pas de génération autonome	Principalement STT avec hooks radiologiques. Reste Niveau A.
Dictadoc	Niveau A	STT + templates légers	Simplicité, intégration EMR facile	Peu de structuration, pas de CV	Coeur de la solution = transcription. Templates secondaires.
Nova Report	Niveau B	30+ arbres de décision, contrôle qualité, structuration	Extrêmement robuste, pas de hallucination possible, bien validé cliniquement	Déterministe, peu flexible, ne génère pas de contenu nouveau	Structuration sophistiquée + contrôle qualité. Zéro génération. Niveau B pur.
Keydiag	Niveau B	Modèles anatomiques, templates guidés, CAPD	Aide visuelle, navigation intuitive, réduit erreurs de structure	Pas d'analyse image auto, pas de génération de texte	Intelligence dans la structuration et les schémas. Pas de CV, pas de LLM.
PowerScribe One	Niveau B	Smart Impression, contrôle qualité, prédictions textuelles	Maturité Nuance, intégration RIS complète, fiable	Smart Impression = prédiction sur patterns, pas génération libre	ML appliqué à des patterns prédéfinis. Structuration + assistance texte basée règles. Niveau B.
Gleamer AutoReport	Niveau C	CV image + génération rapports, forte automatisation	Vitesse extrême, haute scalabilité, déjà en clinique	Nécessite relecture stricte, risque hallucination CV, pathologies rares non couvertes	Computer Vision analyse images, génère rapports bruts. Plein Niveau C avec risques.
Incepto Tango	Niveau C	CV + guidelines intégrées + génération structurée	Multimodal, prise en compte guidelines cliniques, approach hybrid	Complexité intégration, relecture importante si guidelines mal alignées	CV + génération avec scaffold de guidelines. Niveau C encadré.
Milvue	Niveau C	CV localisation + LLM chat conversationnel	Workflow novateur, interaction radiologue-IA intuitive, fusion image-texte	Immaturité relative, peu de données de terrain long-term	CV + LLM chat. Génération via conversation. Niveau C conversationnel.
Mata Flow	Niveau C	GenAI + anti-hallucination propriétaire, focus fiabilité	Approche explicable, risque hallucination réduit par design, croissance France	Moins d'études comparatives publiques que concurrents	GenAI avec guardrails renforcés. Niveau C mais avec contrôles élargis.
Doctreen SPARK	Niveau C	TreeLearning + modèle Marty, hybride B/C, explicable	Approche unique combinant structure et génération, transparence élaborée	Peu de références market, traction France encore en phase growth	Hybride innovant : arborescence + génération. Classé C car capacité génération, mais plus encadré que pur LLM.
RadReport	Niveau C	GenAI mobile, rapports complets, gratuit	Accessibilité, prix zéro, mobilité, démocratisation	Intégration minimale RIS, moins de clinique encadrement que solutions enterprise, donnée mobile = risque	GenAI pur. Génère rapports. Risque hallucination, mais accessibilité majeure. Niveau C léger.

L'alerte de la SFNR : automation bias et limites des LLMs

La Société Française de Neuroradiologie a publié des avertissements importants sur l'IA en radiologie. Points clés :

Attention aux biais d'automatisation. Quand un outil suggère quelque chose, le radiologue a tendance à accepter sans relecture critique. Les outils niveau C doivent être conçus pour décourager cette acceptation aveugle : alertes sur confiance faible, requête de double-vérification sur points critiques, rapports générés marqués clairement comme « draft » en attente de relecture.

Les LLMs ne comprennent pas la médecine comme un radiologue. Les LLMs sont des prédicteurs statistiques de tokens. Ils peuvent sembler compréhensifs, mais ils n'ont pas de modèle mental du corps humain. Ils peuvent générer du texte parfaitement formé mais médicalement faux.

La hallucination n'est pas un bogue, c'est une caractéristique des LLMs. Les LLMs génèrent du contenu plausible même quand ils ne savent rien. En radiologie, une hallucination peut être dangereuse : inventer un finding, omettre un détail critique, générer un rapport pour la mauvaise image.

La conformité légale est non-négociable. Tout outil médical en France doit avoir marquage CE (Directive 2014/42/EU) et, pour les logiciels de diagnostic, être enregistré auprès de l'HDS. Un outil sans CE n'est pas légal, quelle que soit sa performance technique.

Quand choisir quel niveau ?

Choisir Niveau A (Reconnaissance vocale) si :

Vous dictez beaucoup et cherchez à éliminer la frappe clavier
Vous avez une équipe radiologiste petite ou dispersée (transcription distance-friendly)
Vous avez peu de ressources IT (STT est simple à déployer)
Vous voulez une solution mature, sans risque technologique
La structuration des rapports est déjà bonne (vous ne cherchez pas à améliorer format)

Choisir Niveau B (Structuration) si :

Vos rapports manquent de structuration ou d'homogénéité
Vous avez des examens complexes avec beaucoup de paramètres à vérifier (latéralité, localisation, complétude)
Vous voulez un outil robuste sans risque d'hallucination
Votre équipe IT peut gérer des workflows plus élaborés
Vous avez certaines certifications spécifiques (PACS, RIS) qui demandent des formats de rapport stricts

Choisir Niveau C (IA générative) si :

Vous cherchez une vraie augmentation de productivité (génération semi-autonome)
Vous avez les ressources cliniques pour relire chaque rapport généré (temps + expertise)
Votre contexte de travail permet une intégration progressive (pilote d'abord)
L'outil a forte validation clinique et mécanismes anti-hallucination documentés
Vous pouvez investir dans formation et changement organisationnel (c'est un outil disruptif)

Comment conduire une évaluation honnête

Ne vous contentez pas des démos marketing. Voici une approche rigoureuse :

Pilot limité : Testez l'outil sur 100-200 examens pendant 4-6 semaines. Mesurer temps requis, taux d'édition, satisfaisaction radiologue.
Mesurer réel : Temps moyen par rapport (avant/après), nombre de modifications, relecture requise.
Vérifier sécurité : Y a-t-il des cas où l'outil a raté un finding ? Comparer avec votre taux d'erreur baseline.
Coût total : Prix logiciel + coûts intégration + coûts formation + temps relecture. Le vrai ROI.
Conformité : Vérifier CE, HDS, RGPD avant décision finale.
Avis radiologue : Demander à 3-4 radiologues "aimerais-tu utiliser ça quotidiennement ?" Leur retour honnête est or.

Conclusion : trois niveaux, trois stratégies

Les outils Niveau A (transcription) sont excellents. Une bonne reconnaissance vocale élimine la frappe clavier et augmente la fluidité. Dragon Medical One, Philips SpeechLive et autres ont 15 ans de maturité. Si c'est un besoin, adoptez-le sans culpabilité.

Les outils Niveau B (structuration) sont robustes et sous-estimés. Nova Report, Keydiag et PowerScribe One ne sont pas "IA générative", mais ils apportent une valeur clinique réelle en imposant la rigueur et en réduisant les erreurs. Pas glamour, mais efficace.

Les outils Niveau C (génération + CV) sont transformatifs mais demandent vigilance. Gleamer, Incepto Tango, Milvue, Mata Flow, Doctreen SPARK et RadReport peuvent vraiment changer la productivité. Mais sans garde-fous clairs (anti-hallucination, relecture obliga, formation), c'est du Roulette russe clinique.

Le IA-washing disparaîtra quand les radiologues poseront des questions claires et exigeront des réponses honnêtes. Demandez-le : est-ce transcription ? Structuration ? Génération ? Analyse d'image ? Si l'éditeur ne peut pas répondre précisément, ce n'est pas un outil fiable.

L'IA en radiologie est une opportunité réelle. Mais elle ne doit pas être fondée sur du marketing flou. La clarté technique est le seul fondement d'une adoption responsable.

Questions fréquemment posées

Qu'est-ce que le IA-washing en radiologie ?

Le IA-washing est une pratique marketing où les éditeurs utilisent le terme « IA » de façon vague et abusive. Un logiciel peut être vendu comme une « solution IA révolutionnaire » alors qu'il ne fait que transcriber de l'audio. Le terme « IA » englobe des technologies très différentes : simple transcription vocale, structuration intelligente de texte, ou véritable génération de contenu par apprentissage profond. Il est crucial de distinguer ce qu'un outil fait vraiment.

Quels sont les 3 niveaux de la classification IA en radiologie ?

Niveau A (Reconnaissance vocale) : Transcription STT avec modèles acoustiques. Pas de compréhension sémantique. Exemples : Dragon Medical One, Philips SpeechLive.

Niveau B (Structuration + NLP/CAPD) : Templates, arbres de décision, contrôle qualité intelligents. Aide à la structuration sans génération. Exemples : Nova Report, Keydiag, PowerScribe One.

Niveau C (IA générative / Computer Vision) : LLMs générant du texte et/ou Computer Vision analysant les images. Exemples : Gleamer AutoReport, Incepto Tango, Milvue, Mata Flow, Doctreen SPARK, RadReport.

Pourquoi faut-il se méfier des revendications de rapports 100% autonomes ?

Aucune IA, même générative, ne peut générer un rapport radiologique 100% autonome sans risque. Les LLMs peuvent halluciner, générer des interprétations erronées ou inventer des findings. Les images peuvent être mal analysées par le Computer Vision. La clinique exige toujours une relecture médicale. Les outils honnêtes mettent l'accent sur l'assistance productivité, pas sur l'autonomie totale. La SFNR alerte sur l'IA automation bias.

Comment vérifier les vraies capacités d'un outil IA en radiologie ?

Posez ces questions : L'outil transcrit-il seulement ? Restructure-t-il le contenu ? Génère-t-il du texte nouveau ? Analyse-t-il les images ? Quels garde-fous anti-hallucination existent ? Exigez des métriques de performance publiées, un marquage CE ou HDS. Vérifiez qui a validé l'outil et sur quels types d'examens. Consultez la documentation clinique. Demandez des études de cas ou des références. Méfiez-vous de l'absence de spécification technique.

IA-washing en radiologie : comment distinguer le vrai du faux dans les promesses des éditeurs

Le problème : l'abus du terme « IA »

La classification en 3 niveaux : un cadre pour comprendre

Niveau A — Reconnaissance vocale (Speech-to-Text)

Qu'est-ce qu'on obtient au Niveau A ?

Niveau B — Structuration + NLP/CAPD

Qu'est-ce qu'on obtient au Niveau B ?

Niveau C — IA générative + Computer Vision

Qu'est-ce qu'on obtient au Niveau C ?

Les drapeaux rouges à surveiller

Questions à poser à un éditeur pour évaluer son outil

Interrogatoire clinique d'un nouvel outil IA

Table comparative : 12 outils classés par niveau RÉEL

L'alerte de la SFNR : automation bias et limites des LLMs

Quand choisir quel niveau ?

Choisir Niveau A (Reconnaissance vocale) si :

Choisir Niveau B (Structuration) si :

Choisir Niveau C (IA générative) si :

Comment conduire une évaluation honnête

Conclusion : trois niveaux, trois stratégies

Questions fréquemment posées

Articles connexes