Les fondamentaux – Chapitre 11 – Perception de l’image
J.-Y. Devaux , D. Galanaud et F. Brunotte
Plan du chapitre
- Introduction
- Étapes de la perception visuelle
- Particularités normales de la vision susceptibles d’interférer avec la perception des images
- Limitations de perception visuelle liées au vieillissement physiologique ou à des maladies de l’observateur
- Conséquences pour l’analyse des images
- Conclusion
Introduction
La perception visuelle est « le processus d’accès à la connaissance des objets et événements de l’environnement par l’extraction de l’information de la lumière émise ou réfléchie » [1]. La perception est donc une activité cognitive qui se distingue des phénomènes purement optiques. La présentation des images est susceptible d’en modifier la perception. La perception, combinée avec un choix judicieux de l’examen et avec la manière dont celui-ci est visualisé, permet d’arriver à un diagnostic d’imagerie. De nombreux écueils sont à identifier, liés à la manière dont le cerveau humain traite l’information visuelle.
Une image correspond à la localisation dans l’espace d’un signal physique. Les images examinées par le médecin sont soit constituées par de la lumière visible réfléchie (examen direct de la peau, endoscopie), soit transmises par l’élément biologique (microscopie), soit créées sur un écran vidéo, une image papier ou un film transparent. L’imagerie médicale décrite dans cet ouvrage correspond à la transformation en image visible des interactions d’un rayonnement avec un détecteur, rayons X et gamma en radiologie et médecine nucléaire respectivement, ondes radiofréquences en résonance magnétique et ondes ultrasonores en échographie. In fine, une image médicale est donc toujours transmise à l’observateur en lumière visible, condition pour qu’elle puisse constituer une image rétinienne, transmise au cerveau puis analysée et confrontée aux connaissances acquises par le médecin.
L’ordinateur est présent dans pratiquement tous les examens d’imagerie, à la fois pour le pilotage des acquisitions et leur visualisation sur les différents supports cités précédemment. Initialement analogiques, les images médicales sont donc désormais numérisées. Leur mode de présentation doit favoriser la capacité de l’œil humain à analyser ce qu’il perçoit. Les différentes modalités d’imagerie génèrent un volume croissant de données, représentant une information de plus en plus complexe, véritable défi cognitif pour le médecin chargé de l’analyse et de l’interprétation. La réalisation et l’interprétation correctes d’un examen vont nécessiter une série de décisions, conscientes et inconscientes, de la part du médecin imageur, qui vont interférer avec l’interprétation et le diagnostic final.
Les images soumises à l’interprétation médicale sont bidimensionnelles et représentent habituellement une matrice rectangulaire de pixels (voir chapitre 2).
Étapes de la perception visuelle
Les photons de lumière visible traversent les milieux transparents de l’œil dont le cristallin, responsable de l’accommodation, avant de former l’image rétinienne. Le spectre du rayonnement électromagnétique perceptible est très limité (au maximum de 380 à 780 nm). Le signal issu de la rétine, qui comporte à la fois des cellules sensibles aux couleurs (cônes) ou uniquement à l’intensité lumineuse (bâtonnets), subit un premier traitement de l’information au sein même de la rétine (par exemple détection de contours, détection de mouvements, analyse des couleurs). Il transite par les nerfs optiques, le chiasma et les corps géniculés latéraux, puis atteint le cortex visuel primaire dans la région occipitale. L’information visuelle est ensuite traitée dans deux régions distinctes : le réseau ventral (lobe temporal), impliqué essentiellement dans la reconnaissance de l’objet, la sensibilité aux détails et la mémorisation à long terme ; le réseau dorsal (lobe pariétal) traitant la relation de l’objet au sujet, le mouvement et la mémorisation à court terme.
Un élément essentiel du traitement de l’information, comme nous le verrons à plusieurs reprises, est la confrontation aux connaissances acquises préalablement par l’observateur qui va sans cesse confronter ce qu’il voit à ce qu’il connaît.
Perception du contraste et des couleurs
Les images issues des capteurs médicaux sont généralement représentées en nuances de gris. Leur représentation sur écran se fait le plus souvent sur 8 bits, soit 256 nuances de gris. Or, l’œil humain n’est capable de discerner en moyenne que 20 à 30 niveaux de gris différents et la discrimination des nuances est d’autant plus élevée qu’elles ne sont ni très sombres, ni très claires. Même l’examen d’imagerie le plus simple (une radiographie de thorax par exemple) dépasse largement nos capacités de perception et il faut développer des stratégies pour rendre visible de manière optimale le contraste des images. Il existe une transformation entre le signal mesuré (valeur numérique stockée dans un pixel) et sa représentation sur l’écran (figure 11.1). Cette représentation est généralement une fonction affine avec un minimum correspondant au noir et un maximum correspondant au blanc. Mais elle peut aussi être une fonction courbe plus complexe ou conduire à un affichage en échelle de couleurs.
L’échelle de Hounsfield, utilisée pour la TDM, fait correspondre des valeurs allant de − 1000 UH (unités Hounsfield) à + 1000 UH à des niveaux de gris. On règle ainsi la largeur et la position de la fenêtre ou, ce qui revient au même, le minimum (correspondant au noir) et le maximum (au blanc) (figure 11.2).
On obtient ainsi différentes « fenêtres » pour sélectionner les tissus explorés, voire accentuer leurs contrastes. De base, trois fenêtres sont utilisées : celle des « os », des « poumons » et des « tissus mous » (foie, cerveau, disques intervertébraux, etc.).
La plupart des autres modalités d’imagerie sont correctement présentées en 256 niveaux de gris, mais certains traitements d’image, en particulier ceux de l’imagerie fonctionnelle (IRM fonctionnelle, scintigraphie), les représentations volumiques et les associations bimodalités font appel à des échelles de couleurs.
Un des intérêts de la représentation colorée est qu’une couleur est identifiable de manière absolue avec une certaine précision (on distingue un jaune d’un rouge), alors que les niveaux de gris ne sont pas identifiables de manière absolue (figure 11.3). Les échelles colorées sont donc plus adaptées à la quantification alors que les échelles en niveaux de gris sont plus adaptées à une interprétation plus qualitative.
La représentation des couleurs peut se faire par synthèse « additive » (ajout de lumières de différentes longueurs d’onde) ; c’est le cas pour les moniteurs qui génèrent les couleurs au moyen de trois primaires (rouge, vert, bleu [RVB], RGB en anglais), correspondant grossièrement aux trois types de cônes de la rétine. Générant pourtant 16 millions de couleurs différentes, alors que l’œil humain n’en distinguerait, en moyenne, que quelques dizaines de milliers, les écrans de visualisation ne pourront jamais représenter toutes nos capacités de différenciation de nuances colorées, en particulier dans les verts ou les pourpres.
Lors d’une impression sur papier, il s’agit au contraire de synthèse soustractive : les encres ou la peinture absorbent certaines longueurs d’onde, qu’elles « soustraient » ainsi d’une lumière blanche polychromatique ; c’est la synthèse cyan, magenta, jaune (CMJ) (ou CMY en anglais). La représentation colorée est donc différente selon que le support est un écran ou un document imprimé, avec une difficulté de calibration pour représenter correctement les couleurs.
Résolution spatiale
La résolution des différentes modalités d’imagerie n’est pas identique (voir chapitre 2). Nettement inférieures au millimètre, les images radiographiques sont, en pratique, les plus résolues. Les images d’IRM et d’échographie sont de l’ordre du millimètre alors que les images de TEP et surtout celles de scintigraphie sont peu inférieures au demi-centimètre.
La résolution de l’image visualisée dépend de la taille du pixel. Devenus de grande dimension, les écrans actuels des services d’imagerie sont toujours très résolutifs. La résolution de l’écran peut être inutilement élevée si elle excède notablement la résolution physique de la technique. Mais elle peut être aussi trop faible et diminuer artificiellement les performances du système d’imagerie.
La résolution de l’œil humain habituellement appelée acuité visuelle est d’une minute d’angle (c’est-à-dire un soixantième de degré) pour un œil normal (acuité de 10/10) et correspond à la distance sur la rétine entre deux cônes adjacents.
Il faut donc s’assurer que l’angle sous lequel deux points à distinguer sur l’écran sont vus n’est pas inférieur à un angle d’une minute.
Particularités normales de la vision susceptibles d’interférer avec la perception des images
Contraste simultané
Une image en niveaux de gris est constituée de stimuli de luminance différente présentés simultanément. La perception visuelle va évidemment dépendre du pouvoir que possède le système visuel de discriminer ces stimuli. La psychophysique de la vision décrit des interactions entre ces plages voisines qui induisent la perception de contrastes qui n’existent pas sur l’image :
- échiquier d’Adelson (figure 11.4) ;
- grilles d’Hermann (figure 11.5) (illusion de présence de carrés gris) et bandes de Mach (renforcement de la perception du passage d’une nuance à une autre, augmentant le contraste) attribuables à l’organisation même de la rétine sous forme de champs récepteurs rétiniens ;
- dépendance de la perception du contraste de la fréquence spatiale dans l’image.
Illusions visuelles
De nombreux exemples démontrent que la perception d’une image n’est pas seulement l’enregistrement d’une image bidimensionnelle formée de luminance variable.
C’est le cas du contraste simultané que nous venons de détailler, mais c’est aussi celui de nombreux exemples montrant que l’évaluation des longueurs ou des formes géométriques dépend de leur environnement.
En fonction de leur environnement, deux formes géométriques de taille identique peuvent être perçues comme de tailles différentes, une droite peut apparaître courbe, un nodule identique peut paraître de taille différente en fonction du grossissement de l’image, etc.
Ces illusions sont à distinguer des artefacts : les premières correspondent à la mauvaise perception d’une information exacte, tandis que les artefacts sont la présence d’une information fausse sur l’image liée à des problèmes lors de la réalisation de l’examen. Les illusions d’optique peuvent entraîner des erreurs d’interprétation par mauvaise perception des images, en particulier en ce qui concerne la taille des objets ou leur intensité de signal.
Figures ambiguës
Une autre démonstration de la nature interprétative de la vision vient de l’existence d’images pouvant donner lieu à plusieurs perceptions différentes. C’est le cas de l’ambiguïté visage/vase (cas classique du « vase de Rubin »). Il faut noter que ces deux perceptions sont mutuellement exclusives et qu’elles sont en compétition dans l’interprétation que nous en faisons, ce qui exprime le fait que la perception implique la construction d’un modèle d’interprétation.
Remplissage perceptif
Lorsque plusieurs figures géométriques se cachent les unes derrière les autres, l’observateur a tendance à en reconstruire la partie cachée en fonction d’un modèle géométrique dont il fait plus ou moins inconsciemment l’hypothèse plus ou moins juste.
Objets « impossibles »
Certaines images bidimensionnelles formées de lignes très simples ne peuvent pas être décrites de manière synthétique. En effet, la forme ainsi construite ne peut pas être construite physiquement, ce qui en rend la perception impossible et ce qui prouve que la vision humaine comprend l’image rétinienne associée à une étape de modélisation qui repose sur une connaissance préalable des objets.
Limitations de perception visuelle liées au vieillissement physiologique ou à des maladies de l’observateur
Les anomalies pouvant toucher le système visuel sont très nombreuses. On peut citer (de manière non exhaustive !) : les troubles de la réfraction ou de la convergence, les dyschromatopsies7 qui touchent un homme sur dix mais pratiquement pas les femmes, les réductions du champ visuel, les rétinopathies, les atteintes des voies visuelles, du cortex visuel primaire ou du cortex associatif. La perception de l’image va ainsi varier considérablement en fonction des individus. Tous ces éléments doivent donc être pris en compte dans la visualisation des examens. L’analyse d’une série de 24 images/s sur un moniteur d’ordinateur sera plus spontanée pour un sujet jeune ayant une vision parfaite que pour un sujet plus âgé présentant une presbytie et un début de cataracte !
Conséquences pour l’analyse des images
Précautions dans la visualisation des images
Les modalités de visualisation de l’image peuvent exercer à l’insu de l’observateur un certain traitement de l’image. Ainsi, un examen imprimé sur un papier ou présenté sur un écran de mauvaise qualité sera plus difficilement interprétable et fera courir le risque de passer à côté de lésions de petite taille ou présentant un faible contraste.
La perception du contraste est également influencée par les conditions d’éclairage de l’environnement. L’interprétation requiert des tâches cognitives complexes qui seront influencées par la concentration du lecteur, mais aussi par ses connaissances acquises (voir chapitre 12). La lecture d’un examen dans une salle d’interprétation sombre, au calme, sur un moniteur de catégorie médicale de luminosité et de gamme colorimétrique bien calibrées n’aura pas grand-chose à voir avec la visualisation de ce même examen dans une salle bruyante, ensoleillée, sur un écran de petite taille non dédié et non calibré.
Compréhension des traitements d’images « involontaires »
Un certain nombre de manipulations d’images sont susceptibles, à l’insu du médecin, de modifier le contraste et la résolution des images. Parmi les situations correspondantes, citons un écran de résolution insuffisante, des images transmises après compression entraînant des pertes en résolution. L’utilisation de filtres destinés à améliorer la qualité visuelle de l’image (soit filtres lissants comme les filtres « gaussiens », soit filtres renforçant les bords) présente un certain danger de suppression d’une information pertinente ou de création d’artefacts et d’illusions d’optique. Ils sont donc à manier avec prudence.
Une lésion plus petite que la résolution de l’appareillage utilisé pourra ne pas être détectée à un stade précoce. En revanche, une lésion de très petite dimension sera identifiable si son métabolisme permet une imagerie fonctionnelle et génère une intensité élevée.
Adaptation de la présentation des images aux performances visuelles de l’imageur
La présentation des images doit être adaptée aux performances visuelles de l’imageur. L’exemple le plus convaincant est celui du fenêtrage que nous avons vu plus haut. L’œil étant incapable de percevoir l’ensemble des niveaux de luminance d’un examen en une seule image, il est nécessaire d’utiliser les 30 niveaux de gris que nous pouvons distinguer en plusieurs fois afin de bien détailler toute l’échelle des niveaux de gris. En matière de résolution, l’utilisation de zoom est souvent utile.
Importance de la confrontation à une base de connaissance solide de l’imageur
Il faut insister sur le fait que l’interprétation de l’image ne peut se faire de manière adéquate que par référence à la base de connaissance dont dispose l’imageur. Par exemple, un nodule pulmonaire ne sera pas vu de la même manière chez un jeune patient atteint d’une sarcoïdose que chez un sujet plus âgé et gros fumeur, ou bien une lésion osseuse qui peut avoir de multiples origines (fracture, infection, inflammation, arthrose, tumeur, etc.) ne pourra pas être analysée correctement si le type d’examen pratiqué ou les reconstructions d’images réalisées ne sont pas adaptés au mécanisme causal. Le mode de présentation de l’image est également important, comme nous l’avons vu précédemment.
Pour aller plus loin
« Have you seen the dancing gorilla ? » : il s’agit d’une expérience célèbre réalisée par Daniel Simons et Christopher Chabris des départements de radiologie et de psychologie de la Harvard Medical School. Une courte vidéo est projetée, durant laquelle deux groupes de joueurs, certains habillés en blanc d’autres en noir, se font des passes de basket. Il est demandé aux participants de compter le nombre de fois où les joueurs habillés en blanc se passent la balle. Dans le même temps, un septième personnage, déguisé en gorille, traverse la scène en effectuant quelques pas de danse. La moitié des participants ne remarque pas la présence du gorille.
Ce phénomène est appelé cécité d’inattention, c’est-à-dire le fait de ne pas percevoir un stimulus visuel parfaitement visible car l’attention est captée par une autre tâche. L’implication en imagerie médicale est évidente et a été vérifiée par une équipe de radiologues de la même université. Si on recherche une lésion particulière (par exemple une tumeur), on peut ne pas remarquer une autre pathologie, pourtant bien visible (par exemple accident vasculaire cérébral, embolie pulmonaire, etc.).
Conclusion
Recueillir, traiter et interpréter des images : ce sont les actions à la base de nombreux diagnostics médicaux. Les caractéristiques du contraste et de la résolution de ces images doivent être adaptées de manière optimale, à la fois selon le procédé d’acquisition utilisé et selon les capacités de perception visuelle des imageurs concernés. Les possibilités de traitement de l’image par les ordinateurs modernes sont très performantes, mais leurs procédés d’affichage doivent être régulièrement contrôlés afin de maintenir la sûreté de leur usage dans l’intérêt des patients. Parallèlement, les imageurs doivent toujours être conscients des limites de la vision humaine lors de leur interprétation des images.
Référence
[1] Palmer SE. Vision Science. Photons to phenomenology. Cambridge MA : The MIT Press Third printing ; 2002.
Chapitre suivant | |
Retour au sommaire |