Raisonnement multimodal pour la reconstruction géométrique et acoustique de scènes

20250 citationsJournal Articlegreen Open Access

Authors

Amandine Brunetto · Centre de Robotique Intégrée d'Ile de France

Abstract

La reconstruction de scènes à partir d'informations partielles est un défi majeur en vision par ordinateur et en acoustique, ayant des applications allant de la robotique à la réalité virtuelle. Les méthodes basées sur la vision ont progressé dans l'estimation de la profondeur, de la géométrie et de l'apparence, mais elles rencontrent encore des difficultés liées aux ambiguïtés d'échelle, aux surfaces transparentes, pauvres en texture ou réfléchissantes, ainsi qu'aux occlusions. L'acoustique offre des indices complémentaires : les réflexions sonores révèlent la géométrie, tandis que l'absorption, dépendante de la fréquence, renseigne sur les propriétés des matériaux. Contrairement à la vision, le son n'est pas limité par le champ de vue ou la visibilité, répondant aux faiblesses des méthodes visuelles. La modélisation de l'acoustique d'une pièce est complexe. Cette tâche a traditionnellement été abordée à l'aide de méthodes géométriques et ondulatoires, mais les approches neuronales émergent comme une alternative prometteuse. En particulier, la vision peut guider l'apprentissage acoustique. Cette thèse explore comment la vision et le son peuvent être combinées afin d'améliorer la reconstruction géométrique et acoustique des scènes. Nous montrons que la fusion audio-visuelle répond aux limitations de la prédiction de profondeur monoculaire. Par ailleurs, nous démontrons que la reconstruction 3D de scènes à partir de Neural Radiance Fields peut guider l'apprentissage acoustique implicite d'environnements complexes. L'apprentissage conjoint de la radiance et de l'acoustique profite ainsi non seulement à la modélisation acoustique, mais améliore également la reconstruction visuelle dans des environnements vastes et complexes. Pour pallier la dépendance aux scènes et les besoins élevés en données des Neural Acoustic Fields, nous exploitons les capacités génératives du flow matching. Conditionné par des informations multimodales telles que la géométrie de la scène et un petit nombre d'enregistrements acoustiques, notre méthode permet la synthèse acoustique few-shot dans de nouveaux environnements. Enfin, expliquer le comportement des modèles multimodaux est important pour comprendre le rôle de chaque modalité et la façon dont elles peuvent s'inférer mutuellement. Nous proposons une méthode d'explicabilité post-hoc dans le domaine des ondelettes, qui s'étend naturellement aux signaux de toute dimensionnalité et ainsi à de multiples modalités. Ensemble, ces contributions ouvrent la voie à l'amélioration de la capacité des machines à reconstruire les propriétés physiques de notre monde grâce à des modalités multiples.

Topics & Keywords

Generative Adversarial Networks and Image Synthesis Model Reduction and Neural Networks Speech and Audio Processing

UN Sustainable Development Goals

Sustainable cities and communities

Publication Details

Published in: theses.fr (ABES)

Field-Weighted Citation Impact: 0.00