O3D-SIM wird durch die Projektion von 2D-Masken und Einbettungen in 3D aufgebaut, wobei DBSCAN für die anfängliche Verfeinerung verwendet wird.O3D-SIM wird durch die Projektion von 2D-Masken und Einbettungen in 3D aufgebaut, wobei DBSCAN für die anfängliche Verfeinerung verwendet wird.

Aufbau einer Open-Set 3D-Repräsentation: Feature-Fusion und geometrisch-semantische Verschmelzung

2025/12/15 01:00

Abstrakt und 1 Einleitung

  1. Verwandte Arbeiten

    2.1. Vision-und-Sprache Navigation

    2.2. Semantisches Szeneverständnis und Instanzsegmentierung

    2.3. 3D-Szenenrekonstruktion

  2. Methodik

    3.1. Datensammlung

    3.2. Open-Set semantische Informationen aus Bildern

    3.3. Erstellung der Open-Set 3D-Darstellung

    3.4. Sprachgeführte Navigation

  3. Experimente

    4.1. Quantitative Auswertung

    4.2. Qualitative Ergebnisse

  4. Fazit und zukünftige Arbeit, Offenlegungserklärung und Referenzen

3.3. Erstellung der Open-Set 3D-Darstellung

Um den Aufbau des O3D-SIM abzuschließen, bauen wir nun auf den für jedes Objekt extrahierten Feature-Embeddings auf, indem wir Objektinformationen in den 3D-Raum projizieren, clustern und Objekte über mehrere Bilder hinweg verknüpfen, um eine umfassende 3D-Szenendarstellung zu erstellen. Der Prozess der Projektion der semantischen Informationen in den 3D-Raum und der Verfeinerung der Karte ist in Abbildung 3 dargestellt.

\ 3.3.1. Die O3D-SIM-Initialisierung

\ Die 3D-Karte wird zunächst mit einem ausgewählten Bild erstellt, das als Referenzrahmen für die Initialisierung unserer Szenendarstellung dient. Dieser Schritt etabliert die grundlegende Struktur unserer 3D-Szene, die dann schrittweise mit Daten aus nachfolgenden Bildern angereichert wird, um die Komplexität und Detailgenauigkeit der Szene zu erhöhen.

\ Die Daten für Objekte innerhalb einer 3D-Szene werden als Knoten in einem Wörterbuch organisiert, das zunächst leer ist. Objekte werden dann aus dem Anfangsbild zusammen mit den zugehörigen Daten identifiziert, die Embedding-Features und Informationen zu ihren Masken umfassen. Für jedes im Bild erkannte Objekt wird eine 3D-Punktwolke unter Verwendung der verfügbaren Tiefeninformationen und der Objektmaske erstellt. Diese Punktwolkenbildung beinhaltet die Abbildung der 2D-Pixel in den 3D-Raum, erleichtert durch die intrinsischen Parameter der Kamera und Tiefenwerte. Anschließend wird die Kamerapose verwendet, um die Punktwolke genau innerhalb des globalen Koordinatensystems auszurichten. Um unsere Szenendarstellung zu verfeinern, entfernt die Hintergrundfilterung Elemente, die als Hintergrund identifiziert wurden, wie Wände oder Böden. Diese Elemente werden von der weiteren Verarbeitung ausgeschlossen, insbesondere in der Clustering-Phase, da sie nicht den Hauptfokus unserer Szenendarstellung darstellen.

\ Die Menge der Objektpunktwolken wird weiter mit DBSCAN[34]-Clustering zur Darstellungsverfeinerung verarbeitet. Die Punktwolke wird über Voxel-Grid-Filterung heruntergesampelt, um die Anzahl der Punkte und die Berechnungskomplexität zu reduzieren, während die räumliche Datenstruktur handhabbar bleibt. DBSCAN gruppiert Punkte, die eng zusammengepackt sind, während Punkte, die allein in Regionen mit niedriger Dichte liegen, als Rauschen gekennzeichnet werden. In einem Nachclusterungsschritt wird der größte Cluster identifiziert, der typischerweise dem Hauptobjekt von Interesse innerhalb der Punktwolke entspricht. Dies hilft, Rauschen und irrelevante Punkte herauszufiltern und erzeugt eine sauberere Darstellung des interessierenden Objekts.

\ Die Pose eines Objekts im 3D-Raum wird durch Berechnung der Orientierung einer Bounding Box bestimmt, die eine präzise räumliche Darstellung des Standorts und der Größe des Objekts im 3D-Raum bietet. Anschließend wird die 3D-Kartenausgabe mit einem ersten Satz von Knoten initialisiert, die Feature-Embeddings, Punktwolkendaten, Bounding Boxes und die Anzahl der Punkte in der mit jedem Knoten verbundenen Punktwolke kapseln. Jeder Knoten enthält auch Quellinformationen, um die Rückverfolgung von Datenursprüngen und die Verknüpfung zwischen Knoten und ihren 2D-Bild-Gegenstücken zu erleichtern.

\ 3.3.2. Inkrementelles Update des O3D-SIM

\ Nach der Initialisierung der Szene aktualisieren wir die Darstellung mit Daten aus neuen Bildern. Dieser Prozess stellt sicher, dass unsere 3D-Szene aktuell und präzise bleibt, wenn zusätzliche Informationen verfügbar werden. Er iteriert über jedes Bild in der Bildsequenz; für jedes neue Bild werden Multiobjektdaten extrahiert und die Szene aktualisiert.

\ Objekte werden für jedes neue Bild erkannt, und neue Knoten werden wie beim Anfangsbild erstellt. Diese temporären Knoten enthalten die 3D-Daten für neu erkannte Objekte, die entweder mit der bestehenden Szene zusammengeführt oder als neue Knoten hinzugefügt werden müssen. Die Ähnlichkeit zwischen neu erkannten und bestehenden Szenenknoten wird durch Kombination von visueller Ähnlichkeit, abgeleitet aus Feature-Embeddings, und räumlicher (geometrischer) Ähnlichkeit, erhalten aus der Punktwolkenüberlappung, bestimmt, um ein aggregiertes Ähnlichkeitsmaß zu formulieren. Wenn dieses Maß einen vorbestimmten Schwellenwert überschreitet, wird die neue Erkennung als einem bestehenden Objekt in der Szene entsprechend angesehen. Tatsächlich wird der neu erkannte Knoten entweder mit einem bestehenden Szenenknoten zusammengeführt oder als neuer Knoten hinzugefügt.

\ Das Zusammenführen beinhaltet die Integration von Punktwolken und die Mittelung von Feature-Embeddings. Ein gewichteter Durchschnitt von CLIP- und DINO-Embeddings wird berechnet, wobei der Beitrag aus den Quellschlüsselinformationen berücksichtigt wird, mit einer Präferenz für Knoten mit mehr Quellidentifikatoren. Wenn ein neuer Knoten hinzugefügt werden muss, wird er in das Szenenwörterbuch aufgenommen.

\ Die Szenenverfeinerung erfolgt, sobald Objekte aus allen Bildern in der Eingangssequenz hinzugefügt wurden. Dieser Prozess konsolidiert Knoten, die dieselben physischen Objekte repräsentieren, aber zunächst aufgrund von Verdeckungen, Blickwinkeländerungen oder ähnlichen Faktoren als separate identifiziert wurden. Er verwendet eine Überlappungsmatrix, um Knoten zu identifizieren, die räumliche Belegung teilen, und führt sie logisch zu einem einzigen Knoten zusammen. Die Szene wird abgeschlossen, indem Knoten verworfen werden, die die Mindestanzahl an Punkten oder Erkennungskriterien nicht erfüllen. Dies führt zu einer verfeinerten und optimierten endgültigen Szenendarstellung - OpenSet 3D Semantic Instance Maps, auch bekannt als O3D-SIM.

\

:::info Autoren:

(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;

(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, Indien;

(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;

(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, Indien;

(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Türkei;

(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, Indien.

:::


:::info Dieses Paper ist auf arxiv verfügbar unter der CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International) Lizenz.

:::

\

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an [email protected] um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.