NEWSLETTER-FX-004



Modèles de la vision humaine et qualité perçue des images : contrastes, couleurs, netteté, lisibilité






Croco-Marquis


Editorial

(pour voir des images résultats avant de lire la lettre cliquez ICI)

Les nouvelles techniques de capture d’images et de post production (effets spéciaux, étalonnage numérique, … etc.) permettent aujourd’hui de produire des résultats impressionnants en termes de qualité perçue. Certains films à gros budget donnent une impression d’hyper réalité : netteté, transparence, velouté, piqué, contraste, couleurs … etc. En regardant ces images, nous avons une « sensation de qualité ».

On peut alors s’intéresser à une éventuelle méthode de mesure de cette qualité. Or, dès que l’on se penche sur cette question, il apparaît rapidement que ces caractéristiques sont plus ou moins bien définies techniquement, difficiles à mesurer quantitativement, et que les mesures usuellement proposées ne sont généralement pas directement corrélées à notre perception. En effet, notre système de perception ne se limite pas à une matrice de photorécepteurs : la rétine de l’œil est constituée de neurones qui réalisent un traitement complexe des images et envoie des informations choisies au cerveau, qui lui-même, traite ces informations de manière extrêmement élaborée. Nous avons déjà eu l’occasion de le dire dans cette newsletter : l’œil n’est pas une caméra.

Ces images de grande qualité perçue, au cinéma, sont généralement obtenues par des surcoûts de production : en prenant ce qui est le plus cher à chaque étage, (caméra, pellicule, prestataires de développement, système de numérisation, … etc.) on se dit que, normalement, le résultat sera optimal (mais l’expérience montre que ça ne fonctionne pas toujours). Il est possible de rationnaliser ces choix si l’on connaît les facteurs qui influent le plus sur notre perception, et l’on peut alors réaliser des arbitrages techniques, en lien direct avec les attentes artistiques, pour maximiser un rendu visuel à budget donné.

C’est l’objet de ce numéro de NEXYAD FX.

L’étude du système visuel humain permet d’énoncer, par exemple, que nous n’avons pas besoin des mêmes caractéristiques de qualité d’image pour détecter, reconnaître, et identifier clairement les gros objets ou les petits objets : les détails fins d’une image (petits objets) sont soumis à d’autres règles que les grandes zones de dégradés de teintes et de luminance, pour que notre cerveau puisse les percevoir sans effort. Ceci est un exemple parmi d’autres.

Nous présentons dans cette lettre quelques caractéristiques connues de notre système de vision, et montrons comment cette connaissance peut guider les travaux de post production afin d’obtenir des images d’une qualité perçue la meilleure possible (pour le spectateur). Nous expliquons :
- pourquoi il est complexe de réaliser les post traitements idéaux,
- quels artefacts génèrent les traitements disponibles sur les outils du commerce,
- et comment nous obtenons, avec des traitements d’une nouvelle génération, des résultats extrêmement intéressants.

Nous traitons en particulier les thèmes suivants :
- précision des légers dégradés de teintes et luminance
- perception des détails fins dans l’image
- couleurs
- netteté et piqué d’image.

Nous montrons enfin des exemples de vidéos traitées avec des méthodes innovantes, et qui conduisent à une très grande qualité perçue, à partir de prises de vues réalisées à des coûts standards, voire low cost.


Bonne lecture.






1 – Perception des variations faibles et lentes (précision des dégradés de luminance et de couleurs)


 - Perception de la profondeur:
La perception des faibles et lentes variations sur des dégradés de luminance et de teintes est utilisée par notre système de vision pour décoder certains éléments de la scène tridimensionnelle : perception de la profondeur sur une image.

En effet, une image est une projection sur un plan d’une scène tridimensionnelle. En regardant cette image, nous décodons néanmoins une bonne partie de la dimension de profondeur : par exemple, nous percevons l’éloignement d’une zone plane horizontale (comme une route, un paysage plat, …etc.) grâce à des lignes de fuite (perspective), à des occultations partielles d’objets par d’autres, et aux dégradés lents de luminance.

Ce dernier point est facile à observer : une route, par exemple, de couleur et de réflectance constantes (même bitume tout du long), éclairée d’en haut de manière uniforme par le soleil (par temps couvert : pas d’ombres portées visibles), apparaît de plus en plus lumineuse quand on regarde de plus en plus loin 
(c’est la loi de koschmieder).

Cette variation lente de luminosité est automatiquement interprétée par notre cerveau comme un éloignement. Nous montrons ci-dessous une image de scène routière : le bitume paraît de plus en plus lumineux :

Road

 - perception des volumes : Le cerveau fait systématiquement une hypothèse d’éclairage par le haut (ce qui, en situation naturelle, se rencontre souvent) pour interpréter les variations lentes de luminosité en termes de volume. Nous montrons ci-dessous deux dessins : le premier est a priori vu par la plupart des gens comme une boule, le second comme un trou :

Spheres
                    


Exemple : la perception des volumes nous permet de distinguer des nuages les uns des autres alors que le contraste est extrêmement faible, et qu’il n’existe pas de contours francs, car nous interprétons de très petites variations lentes de luminance.

Cloud




Remarque : le grain (ou le bruit d’image) vient, en pratique, se superposer à l’image et brouille la perception des fins dégradés.

Graph


On voit bien alors qu’il est hautement souhaitable de supprimer toutes les variations rapides (dites « hautes fréquences ») qui correspondent ici à du grain, pour mieux percevoir le dégradé (et donc mieux décoder l’aspect tridimensionnel de la scène).

À retenir : le grain d’image (ou bruit) peut éventuellement être un choix du réalisateur, pour des raisons esthétiques (bien que non réaliste – dans la réalité, nous ne voyons le monde avec du grain – le réalisateur peut souhaiter utiliser le grain pour véhiculer ou appuyer son message), mais il diminue fortement la perception des volumes et des profondeurs.







2 – Perception des détails fins de l’image


La perception des détails fins de l’image est importante pour conserver un côté « réaliste » aux objets constituant la scène. C’est ce qui distingue, par exemple, un objet complexe réel (comme un visage), d’une reconstruction 3D de cet objet (même si le 3D fait de plus en plus de progrès).

Notre système de vision a besoin d’un très fort contraste pour percevoir les détails d’une image 
(c’est la loi dite CSF de l’œil humain).

Les détails sont des objets et parties d’objets, de petite taille, et qui génèrent donc des variations de luminance sur des distances très courtes. On dit qu’il s’agit de hautes fréquences.

NB : ces fréquences sont du même ordre de grandeur que celles du grain (ou bruit) d’images. Il est donc difficile par nature de trier les détails fins du bruit d’image. Lorsque l’on augmente le contraste de l’image afin de faire ressortir les détails (poils de barbe, petits cailloux, grains de sable, … etc.), on augmente alors aussi le contraste des autres éléments de l’image :

- le contraste du grain ou bruit d’image : le bruit devient très visible et casse alors la perception de la profondeur de la scène (comme expliqué précédemment). Par ailleurs, s’il a été choisi pour des raisons esthétiques, son amplification qui modifie ses caractéristiques est généralement non souhaitée.

- le contraste des dégradés lents : les dégradés sont détruits aux deux extrémités (claire et sombre) car elles arrivent à saturation, ce qui conduit à des zones blanches brûlées ou à des noirs purs qui n’ont plus aucune matière. La perception des volumes et des profondeurs est donc altérée.


Graph
 

À retenir : On remarque que la bonne perception des détails fins (détails qui donnent le côté réaliste) est antinomique avec la perception des dégradés lents et faibles (dégradés qui donnent le décodage 3D, la profondeur de la scène). On veut dans le premier cas beaucoup de contraste, et dans l’autre au contraire beaucoup de finesse dans la gradualité des dégradés. Et l’augmentation du contraste pour faire ressortir les détails fins, non seulement détruit les dégradé (et perturbe la perception des profondeurs et des volumes), mais amplifie le grain (ou bruit) d’image. Ce bruit atteint alors des amplitudes qui d’une part le rend inesthétique, et d’autre part casse encore un peu plus la perception que l’on a des dégradés.




3 – Perception des couleurs


La perception des couleurs est souvent importante pour la compréhension de la scène : une assiette de haricots verts de couleur rouge, par exemple, ne sera pas reconnue par la plupart des spectateurs (qui penseront voir des piments, … etc.). Notre système de vision utilise beaucoup les couleurs, en particulier le jour (vision diurne).

Le cinéaste peut très bien utiliser les couleurs comme marqueur sémantique, pour distinguer des éléments qui ont des luminances très proches : habiller les personnages avec des couleurs plus ou moins contraires en fonction de leur rôle plus ou moins antagoniste, faire ressortir des personnages ou des objets en saturant leur couleur alors que le reste de la scène est désaturé (ou l’inverse), traiter toute l’image en monochrome coloré (exemple : bleu, jaune, vert, sépia, … etc.) sauf certaines couleurs ou certains objets ou personnages, afin d’amener le spectateur à focaliser son attention sur certaines zones de la scène filmée. Cela demande alors de post-traiter les images afin de modifier fortement les couleurs capturées par la caméra. Or, nous avons montré dans une lettre précédente, que ce traitement générait dans la pratique une amplification du grain (ou bruit) d’image. Et nous savons maintenant que cela est perturbe la bonne perception des volumes et des profondeurs.
 
À retenir : la modification des couleurs amplifie le grain (ou bruit) d’image, et perturbe de ce fait la perception des lents dégradés qui apportent les informations de profondeur et de volume.





4 - Perception d’une image « nette », « piquée »



La netteté est interprétée par notre cerveau comme une transparence de l’atmosphère. En effet, en dehors de toute pathologie de l’œil, la seule expérience qui génère du flou dans la vie réelle est la non transparence de l’atmosphère (brouillard, fumée, ou même humidité, ou objet entre l’observateur et la scène : vitre sale, tissus, larme, … etc.). Cette sensation de transparence amplifie la perception des volumes et de la profondeur dans la scène, de deux manières :
- perception intrinsèque des volumes : les objets nets ont des dégradés non voilés (et donc le volume est perçu correctement)
- perception relative des volumes par rapport à leur fond : les objets nets sont décollés d’un fond flou car le fond flou écrase tous les dégradés et n’est plus perçu du tout en 3D (il est plan).

La netteté est une impression visuelle qui caractérise la séparabilité des objets les uns par rapport aux autres, ou vis-à-vis du fond. Plus la transition entre deux objets est rapide (en distance), et plus on a la sensation de netteté. À l’inverse, plus la transition entre deux objets est longue, et plus on a la sensation de « flou ». Remarquons que si une transition ne sépare pas deux objets, mais qu’elle fait partie de l’objet lui-même (cas d’un dégradé), alors notre cerveau perçoit un dégradé (qu’il interprète éventuellement comme un volume ou une profondeur), mais ne génère pas une impression de flou. On voit bien alors que cette définition de la netteté est complexe, puisqu’elle implique que l’on soit capable de détecter et de reconnaître des objets. La transition entre deux objets est appelée « contour ». La précision des contours des objets est alors le facteur principal qui influe sur l’impression de netteté.

Graph
transition courte entre deux objets = impression de netteté

Graph
transition longue entre deux objets = impression de flou

On constate sur ces deux graphiques que la taille des pixels peut avoir une influence sur la perception de netteté : car la transition entre deux objets ne pourra pas être plus courte que la moitié de la taille d’un pixel en moyenne. La résolution en pixels par mm (parfois appelée « piqué ») peut, si elle est insuffisante, générer une impression de flou. On constate par ailleurs que la pente d’une transition courte, pour les mêmes valeurs de luminance, est plus forte que la pente d’une transition lente.

Cela explique pourquoi l’augmentation du contraste (qui ne joue pas sur la vitesse de transition mais sur les niveaux de luminance … et ce faisant joue quand même sur la pente) améliore légèrement la netteté apparente d’une image :

Graph

Mais nous l’avons vu, améliorer le contraste amplifie le grain (ou bruit) d’image et détruit les dégradés, ce qui diminue la perception des volumes et profondeurs. Afin d’améliorer la netteté apparente sans augmenter le contraste global de l’image, les systèmes de traitement numérique du commerce utilisent généralement une détection de la pente (pente que l’on appelle en mathématiques « dérivée »), puis recommencent sur l’image résultat pour calculer la pente de la pente (appelée « dérivée seconde »).


Graph


Cette méthode, on le voit, génère un double contour (un blanc qui correspond au pic vers le haut, et un noir qui correspond au pic vers le bas) qui est un artefact gênant, mais qui améliore effectivement la perception de netteté car il encercle et détoure littéralement les objets.

Marquis-compratif

Marquis-compratif

Ce cerclage des objets par un double contour augmente l’impression de netteté car il ressemble au traitement que réalise notre rétine : celle-ci est construite sur une architecture de neurones dite « inhibition latérale » qui conduit à générer des doubles contours « artificiels ».
 

Road


Cela donne lieu à l’illusion d’optique bien connue appelée 
« effet MACH ». En appliquant cette méthode et en affichant la dérivée seconde sur l’image, on ne fait rien d’autre que copier ce que fait notre rétine, ce qui explique que l’on obtienne une meilleure impression de netteté. Mais d’une part, l’affichage de ce double contour n’est pas vraiment esthétique, et d’autre part, le grain (ou bruit) d’image est alors lui aussi détouré par ce type d’approche. En amplifiant la perception du grain (ou bruit), on diminue alors la perception tridimensionnelle de la scène, et l’on se retrouve souvent à un niveau de bruit qui n’est pas esthétique.



Lac-compratif


A retenir : la netteté est une résultante complexe de la résolution de l’image, du contraste, et de la précision des contours. Améliorer la netteté, pour une résolution donnée, en augmentant le contraste, détruit les lents dégradés et les aplats qui nous donnent la perception du relief. Améliorer la netteté, pour une résolution donnée, en augmentant la précision des contours, amplifie le grain (ou bruit) qui perturbe lui aussi la perception des dégradés et aplats, et génère des artefacts souvent peu esthétiques.




5 – Synthèse


a – Recherche d’un compromis :

Nous l’avons bien expliqué, l’amélioration d’un critère de qualité des images détériore les autres critères de qualité. Il est donc nécessaire de trouver un compromis acceptable. Celui-ci dépend de la localisation de l’information que veut communiquer le cinéaste (si des objets schématisés avec peu de détails mais une impression d’espace et de relief est compatible avec le style cinématographique, on ne cherchera pas à améliorer la perception des détails).

Les outils du commerce proposent tous des solutions d’amélioration de chaque critère de qualité. Mais le niveau de détérioration des autres critères de qualité est généralement très élevé, ce qui conduit souvent à se rabattre sur un compromis fade. Par exemple, les outils du marché ne savent différencier efficacement les contours fins du grain (ou bruit) d’image). Ils ne savent pas lisser les aplats sans détruire la netteté, … etc. Ou s’ils le font, la performance n’est pas suffisante. La seule solution pour obtenir de très bonnes images en utilisant ces outils est alors d’augmenter considérablement les coûts de productions pour avoir un rapport signal/bruit des rushes extrêmement fort. Cela permet en effet de ne plus se préoccuper du bruit d’image qui nous l’avons vu, est un facteur perturbateur important.


b – Nouvelles méthodes :

NEXYAD a développé de nouvelles méthodes de traitement numérique des images, basés sur des approches dites biomimétiques (inspirées de notre système de vision) qui permettent de séparer le bruit, les contours fins, et les zones d’aplats, afin de renforcer chaque critère de qualité en ne détruisant pas les autres. Cela permet, par exemple, de renforcer la netteté tous en supprimant le bruit sur les dégradés, pour une meilleure perception, à la fois des profondeurs et volumes, et des détails ultra réalistes. On peut de même traiter fortement les couleurs et augmenter localement le contraste.

Ces méthodes sont appliquées ci-dessous et montrent qu’il est possible d’accéder à des qualités perçues d’image très élevées avec des moyens de production standards (bout d’essais 35mm) voire low cost (vidéo au Canon 5D Mark II).




6 – Exemples d’images post traitées avec ces méthodes nouvelles


Nous montrons un bout d’essai filmé par le Directeur de la photographie Philippe Piffeteau (35 mm), sur lesquels nous avons appliqué 2 étalonnages très radicaux. Ces étalonnages poussent les contrastes et modifient beaucoup les teintes, et ne sont pas réalisables, à partir de ces rushes, si l’on ne dispose pas de traitements intelligents de nouvelle génération (en particulier, le grain se transformerait en fourmillement insupportable).

On peut comparer le rush avec les 2 versions étalonnées :
- les modifications de couleurs sont importantes, sans pour autant faire ressortir le grain
- les aplats et lents dégradés sont veloutés (ce qui donne une bonne perception de la profondeur de la scène)
- les détails sont rendus extrêmement nets (éclaboussures, feuilles en premier plan, fond du lac en premier plan/qui donne l’impression que l’eau est transparente comme si l’on avait utilisé un polarisant …) alors qu’on ne voit aucun artefact.


Road
(Cliquez sur l'image pour voir la vidéo)

Road
(Cliquez sur l'image pour voir la vidéo)

Lac-compratif



Nous montrons de même un zoom sur des images étalonnées (épisode d’une nouvelle série TV) : le zoom met en évidence plusieurs problèmes sur le rush étalonné en contraste et couleur : la caméra (Canon 5D Mark II) compresse (on voit les carrés de compression dans la vitre), la précision des optiques et de leur mécanique rend difficile le pointage parfait et un léger flou subsiste.

Sur cette prise, la netteté du rush est moins bonne que sur les autres prises de la même scène … mais il se trouve que le réalisateur juge le jeu du comédien plus intéressant … Nous avons « récupéré » la netteté afin de ne pas contraindre le réalisateur à choisir entre une interprétation meilleure avec une image floue, ou bien une interprétation moins bonne avec une image nette. Et nous avons pu étalonner ce rush de manière très poussée tout en récupérant la netteté, et sans rajouter d’artefact. On constate un lissage des zones de dégradés lents (vitres), une amélioration du contraste, une amélioration de la précision des contours, l’absence d’artefacts :

Road
(Cliquez sur l'image pour voir la vidéo)


Marquis-compratif-NX

Marquis-compratif-NX



Pour en savoir plus, contacter NEXYAD :  contact@nexyad.net

 

 

NEWS
Puce_Nex NEXYAD a post traité des nouveaux épisodes d’une future série TV

clip

Puce_Nex NEXYAD a développé et teste actuellement un effet spécial qui permet de générer des ralentis sans flous/sans saccades/sans atrefacts … et le compare aux offres du marché (Nuke, Fusion, …)

Puce_Nex Archives - Numéros précédents de le Newsletter

NEXYAD FX n°1 : focus sur l’effet « nuit américaine » (day for night) : ICI

nl01


NEXYAD FX n°2 : Atténuation du bruit et grain d’images : ICI

nl02

NEXYAD FX n°3 : Effets Spéciaux appliqués au pré étalonnage : ICI

nl02