Mieux voir avec moins : améliorer la profondeur avec peu de repères visuels
Le premier article s’attaque à un défi bien connu en vision artificielle : la prédiction de profondeur à partir d’une seule image, une tâche clé pour des applications comme la robotique ou la conduite autonome, tâches dans lesquelles l’ENSTA est leader au sein de l’Institut Polytechnique de Paris. Si les méthodes auto-supervisées ont permis des progrès notables, elles restent limitées dans les zones pauvres en textures — où l’image ne donne que peu d’indices.
Pour contourner cette difficulté, les chercheurs de l’ENSTA proposent une approche originale. En extrayant des contours dits "pré-sémantiques", puis en leur appliquant un transformé de distance, ils enrichissent artificiellement la variabilité des images dans les zones uniformes. Cette modification permet d’apporter une meilleure supervision durant l’entraînement du réseau, en favorisant un apprentissage plus robuste de la profondeur et du mouvement de la caméra.
Générer des images, oui, mais en toute confiance
Le second article présenté à CVPR ouvre un champ encore très peu exploré : l’incertitude dans les modèles génératifs texte-vers-image (T2I), tels que ceux utilisés dans les outils d’IA capables de produire des images à partir de descriptions textuelles. Si ces modèles impressionnent par leur créativité, leur fiabilité reste difficile à évaluer : une image générée correspond-elle vraiment à ce que demandait le prompt ?
Pour répondre à cette question, les chercheurs ENSTA introduisent PUNC (Prompt-based UNCertainty estimation), une méthode innovante s’appuyant sur des modèles vision-langage (LVLM).
Le principe est simple mais redoutablement efficace : une fois l’image générée, un LVLM produit une légende qui est ensuite comparée au prompt initial. Ce passage par le texte permet de mesurer finement l’adéquation sémantique entre intention et résultat.
Autre atout majeur de cette approche : la possibilité de distinguer l’incertitude aléatoire (due aux variations dans les données) de l’incertitude épistémique (liée aux limites du modèle). L’ENSTA se distingue par son expertise dans la maîtrise des incertitudes que ce soit grâce à librairie torch Uncertainty, ou grâce à ces nombreux tutoriels ou conférences organisés sur le sujet. L’idée de ce papier est d’étudier de montrer comment quantifier l’incertitude pour les modèles génératifs.
PUNC ouvre ainsi la voie à des usages concrets, comme la détection de biais, la protection contre le plagiat, ou l’identification de contenus hors distribution. Le code de l’outil est librement accessible, favorisant la recherche ouverte.
Le poster sera présenté le vendredi 13 juin, de 16h à 18h, au stand #257 – ExHall D
Un workshop international sur l’incertitude en vision artificielle
Point d’orgue de la présence de l’ENSTA à CVPR, la co-organisation du Workshop on Uncertainty in Computer Vision, qui se tient le mercredi 11 juin dans la salle 102B.
Ce workshop d’une journée complète rassemble chercheurs, doctorants et industriels autour des enjeux de l’incertitude, de la calibration, et de la robustesse des modèles visuels.
Ce rendez-vous scientifique est organisé en partenariat avec Andrea Pilzer, NVIDIA, Italy, Gianni Franchi, ENSTA, France, Andrei Bursuc, Valeo.ai, France, Arno Solin, Martin Trapp, et Marcus Klasson, (tous trois Aalto University, Finland), Angela Yao, National University of Singapore, Singapore, Tuan-Hung Vu, valeo.ai and Inria, France, et Fatma Güney, Koç University, Turkey
L’objectif : croiser les perspectives académiques et industrielles pour mieux comprendre comment construire des systèmes de vision plus sûrs, plus interprétables, et plus adaptés au monde réel. Le programme prévoit conférences invitées, présentations de papiers, panels et discussions techniques.
Une ambition : fiabilité et transparence en IA visuelle
À travers ces deux publications et ce workshop, l’ENSTA confirme son rôle de leader européen dans la recherche sur la vision artificielle de confiance. À l’heure où l’intelligence artificielle s’invite dans des domaines sensibles — santé, mobilité, sécurité —, mieux comprendre, quantifier et exploiter l’incertitude devient un impératif scientifique autant qu’éthique.