O3D-SIM est construit en projetant des masques 2D et des embeddings en 3D, en utilisant DBSCAN pour le raffinement initial.O3D-SIM est construit en projetant des masques 2D et des embeddings en 3D, en utilisant DBSCAN pour le raffinement initial.

Construction d'une représentation 3D en ensemble ouvert : Fusion de caractéristiques et fusion géométrico-sémantique

2025/12/15 01:00

Abstrait et 1 Introduction

  1. Travaux connexes

    2.1. Navigation basée sur la vision et le langage

    2.2. Compréhension sémantique de scène et segmentation d'instance

    2.3. Reconstruction de scène 3D

  2. Méthodologie

    3.1. Collecte de données

    3.2. Informations sémantiques en ensemble ouvert à partir d'images

    3.3. Création de la représentation 3D en ensemble ouvert

    3.4. Navigation guidée par le langage

  3. Expériences

    4.1. Évaluation quantitative

    4.2. Résultats qualitatifs

  4. Conclusion et travaux futurs, déclaration de divulgation et références

3.3. Création de la représentation 3D en ensemble ouvert

Pour compléter la construction de l'O3D-SIM, nous nous appuyons maintenant sur les embeddings de caractéristiques extraits pour chaque objet en projetant les informations d'objet dans l'espace 3D, en les regroupant et en associant les objets à travers plusieurs images pour créer une représentation complète de la scène 3D. Le processus de projection des informations sémantiques dans l'espace 3D et d'affinage de la carte est illustré dans la Figure 3.

\ 3.3.1. L'initialisation de l'O3D-SIM

\ La carte 3D est initialement créée à l'aide d'une image sélectionnée, qui sert de cadre de référence pour initialiser notre représentation de scène. Cette étape établit la structure fondamentale de notre scène 3D, qui est ensuite progressivement enrichie avec des données provenant d'images ultérieures pour enrichir la complexité et les détails de la scène.

\ Les données des objets dans une scène 3D sont organisées sous forme de nœuds dans un dictionnaire, qui est initialement vide. Les objets sont ensuite identifiés à partir de l'image initiale avec les données connexes qui englobent les caractéristiques d'embedding et les informations sur leurs masques. Pour chaque objet discerné dans l'image, un nuage de points 3D est créé en utilisant les informations de profondeur disponibles et le masque de l'objet. Cette formation de nuage de points implique la cartographie des pixels 2D dans l'espace 3D, facilitée par les paramètres intrinsèques de la caméra et les valeurs de profondeur. Par la suite, la pose de la caméra est utilisée pour aligner avec précision le nuage de points dans le système de coordonnées global. Pour affiner notre représentation de scène, le filtrage d'arrière-plan supprime les éléments identifiés comme arrière-plan, tels que les murs ou les sols. Ces éléments sont exclus du traitement ultérieur, en particulier dans la phase de clustering, car ils ne constituent pas l'objet principal de notre représentation de scène.

\ L'ensemble des nuages de points d'objets est traité davantage en utilisant le clustering DBSCAN[34] pour l'affinage de la représentation. Le nuage de points est sous-échantillonné via un filtrage par grille de voxels pour réduire le nombre de points et la complexité computationnelle tout en préservant la structure spatiale des données gérable. DBSCAN regroupe les points qui sont étroitement regroupés tout en étiquetant les points qui se trouvent seuls dans des régions de faible densité comme du bruit. Dans une étape post-clustering, le plus grand cluster, qui correspond généralement à l'objet principal d'intérêt dans le nuage de points, est identifié. Cela aide à filtrer le bruit et les points non pertinents, produisant une représentation plus propre de l'objet d'intérêt.

\ La pose d'un objet dans l'espace 3D est déterminée en calculant l'orientation d'une boîte englobante, qui offre une représentation spatiale concise de l'emplacement et de la taille de l'objet dans l'espace 3D. Par la suite, la sortie de la carte 3D est initialisée avec un ensemble initial de nœuds, encapsulant les embeddings de caractéristiques, les données de nuage de points, les boîtes englobantes et le nombre de points dans le nuage de points associé à chaque nœud. Chaque nœud comprend également des informations sur la source pour faciliter le traçage des origines des données et le lien entre les nœuds et leurs homologues d'image 2D.

\ 3.3.2. Mise à jour incrémentale de l'O3D-SIM

\ Après avoir initialisé la scène, nous mettons à jour la représentation avec des données provenant de nouvelles images. Ce processus garantit que notre scène 3D reste actuelle et précise à mesure que des informations supplémentaires deviennent disponibles. Il itère sur chaque image dans la séquence d'images; pour chaque nouvelle image, les données multi-objets sont extraites et la scène est mise à jour.

\ Les objets sont détectés pour chaque nouvelle image, et de nouveaux nœuds sont créés comme pour l'image initiale. Ces nœuds temporaires contiennent les données 3D pour les objets nouvellement détectés qui doivent soit être fusionnés dans la scène existante, soit ajoutés comme nouveaux nœuds. La similarité entre les nœuds nouvellement détectés et les nœuds de scène existants est déterminée en combinant la similarité visuelle, dérivée des embeddings de caractéristiques, et la similarité spatiale (géométrique), obtenue à partir du chevauchement des nuages de points, pour formuler une mesure de similarité agrégée. Si cette mesure dépasse un seuil prédéterminé, la nouvelle détection est considérée comme correspondant à un objet existant dans la scène. En effet, le nœud nouvellement détecté est soit fusionné avec un nœud de scène existant, soit ajouté comme nouveau nœud.

\ La fusion implique l'intégration des nuages de points et la moyenne des embeddings de caractéristiques. Une moyenne pondérée des embeddings CLIP et DINO est calculée, en tenant compte de la contribution des informations clés de source, avec une préférence pour les nœuds ayant plus d'identifiants de source. Si un nouveau nœud doit être ajouté, il est incorporé dans le dictionnaire de scène.

\ L'affinage de la scène se produit une fois que les objets de toutes les images de la séquence d'entrée ont été ajoutés. Ce processus consolide les nœuds qui représentent les mêmes objets physiques mais qui ont été initialement identifiés comme séparés en raison d'occlusions, de changements de point de vue ou de facteurs similaires. Il utilise une matrice de chevauchement pour identifier les nœuds qui partagent une occupation spatiale et les fusionne logiquement en un seul nœud. La scène est finalisée en écartant les nœuds qui ne répondent pas au nombre minimum de points ou aux critères de détection. Cela aboutit à une représentation finale de scène affinée et optimisée - Cartes d'instances sémantiques 3D en ensemble ouvert, alias O3D-SIM.

\

:::info Auteurs:

(1) Laksh Nanwani, Institut international de technologie de l'information, Hyderabad, Inde; cet auteur a contribué de manière égale à ce travail;

(2) Kumaraditya Gupta, Institut international de technologie de l'information, Hyderabad, Inde;

(3) Aditya Mathur, Institut international de technologie de l'information, Hyderabad, Inde; cet auteur a contribué de manière égale à ce travail;

(4) Swayam Agrawal, Institut international de technologie de l'information, Hyderabad, Inde;

(5) A.H. Abdul Hafez, Université Hasan Kalyoncu, Sahinbey, Gaziantep, Turquie;

(6) K. Madhava Krishna, Institut international de technologie de l'information, Hyderabad, Inde.

:::


:::info Cet article est disponible sur arxiv sous licence CC by-SA 4.0 Deed (Attribution-Partage dans les mêmes conditions 4.0 International).

:::

\

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

Vous aimerez peut-être aussi

Les ETF Spot Ethereum subissent la plus importante sortie hebdomadaire depuis leur lancement, signe d'un faible attrait institutionnel ⋆ ZyCrypto

Les ETF Spot Ethereum subissent la plus importante sortie hebdomadaire depuis leur lancement, signe d'un faible attrait institutionnel ⋆ ZyCrypto

L'article Spot Ethereum ETFs Suffer Highest Weekly Outflow Since Launch In Sign Of Low Institutional Appeal ⋆ ZyCrypto est apparu sur BitcoinEthereumNews.com. Publicité &nbsp &nbsp Les fonds négociés en bourse (ETFs) au comptant d'Ether aux États-Unis ont subi leur plus importante semaine de débit, marquant la fuite de capitaux la plus sévère depuis le lancement des produits au début de l'année dernière. Cette hémorragie est survenue alors que le prix d'Ether s'effondrait sous le niveau de support crucial de 4 000 $, avant de rebondir légèrement. Les ETFs ETH saignent alors que les institutions se retirent Les données de SoSoValue montrent que les ETFs ETH au comptant ont vu plus de 795,5 millions de dollars sortir au cours de la semaine se terminant le 26 septembre, signe d'une demande institutionnelle en baisse pour le deuxième plus grand jeton au monde par capitalisation boursière. Ces chiffres sont les plus élevés depuis le lancement des fonds le 23 juillet, dépassant les débits cumulés de 787,7 millions de dollars enregistrés dans la semaine se terminant le 5 septembre. Le FETH de Fidelity a subi le plus important débit, les investisseurs retirant 362 millions de dollars du fonds au cours de la semaine dernière. L'iShares Ethereum Trust (ETHA) de BlackRock a perdu plus de 200 millions de dollars d'argent des investisseurs. ETHA a été le premier ETF Ether au comptant parmi un groupe de 11 émetteurs à franchir le cap historique de 1 milliard de dollars d'entrées nettes. Il détient actuellement plus de 15 milliards de dollars d'actifs nets. Les ETFs ETH combinés détiennent actuellement 5,37 % de l'approvisionnement en circulation de l'actif numérique. Publicité &nbsp La chute d'ETH sous les 4 000 $ jeudi et vendredi a culminé avec un exode de 250 millions de dollars chaque jour, la pire série de débits sur deux jours depuis la mi-août. Le prix d'Ether a légèrement rebondi le 27 septembre, reprenant la barre des 4 000 $. ETH s'échange actuellement à 4 003,35 $, stable sur la journée et en baisse de 10,6 % sur la semaine dernière, selon l'agrégateur de prix CoinGecko. Tous les signes indiquent que les investisseurs retirent leurs bénéfices après qu'ETH ait bondi de plus de 60 % en un an, attirant un intérêt institutionnel considérable. La demande d'ETF Bitcoin s'affaiblit Pendant ce temps, les ETFs Bitcoin n'ont pas été à l'abri de ces débits au cours des sept derniers jours, les douze véhicules d'investissement institutionnels cotés en bourse perdant 902,5 millions de dollars...
Partager
BitcoinEthereumNews2025/09/28 23:44