(EN) Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for determining an alignment between cross-modal sensor data. In one aspect, a method comprises: obtaining (i) an image that characterizes a visual appearance of an environment, and (ii) a point cloud comprising a collection of data points that characterizes a three-dimensional geometry of the environment; processing each of a plurality of regions of the image using a visual embedding neural network to generate a respective embedding of each of the image regions; processing each of a plurality of regions of the point cloud using a shape embedding neural network to generate a respective embedding of each of the point cloud regions; and identifying a plurality of region pairs using the embeddings of the image regions and the embeddings of the point cloud regions.
(FR) L'invention concerne des procédés, des systèmes et un appareil, comprenant des programmes informatiques encodés sur un support de stockage informatique, permettant de déterminer un alignement entre des données de capteur intermodal. Selon un aspect, un procédé consiste à : obtenir (i) une image qui caractérise un aspect visuel d'un environnement et (ii) un nuage de points comprenant une collection de points de données qui caractérise une géométrie tridimensionnelle de l'environnement; traiter chaque région parmi une pluralité de régions de l'image à l'aide d'un réseau neuronal d'incorporation visuelle pour générer une incorporation respective de chacune des régions d'image; traiter chaque région parmi une pluralité de régions du nuage de points à l'aide d'un réseau neuronal à incorporation de forme pour générer une incorporation respective de chacune des régions de nuage de points; et identifier une pluralité de paires de régions à l'aide des incorporations des régions d'image et des incorporations des régions de nuage de points.