MaGGIe wyróżnia się w renderowaniu włosów i separacji instancji na naturalnych obrazach, przewyższając MGM i InstMatt w złożonych scenariuszach z wieloma instancjami.MaGGIe wyróżnia się w renderowaniu włosów i separacji instancji na naturalnych obrazach, przewyższając MGM i InstMatt w złożonych scenariuszach z wieloma instancjami.

Solidne matowanie z wykorzystaniem maski: zarządzanie zaszumionymi danymi wejściowymi i wszechstronnością obiektów

2025/12/21 02:00

Abstrakt i 1. Wprowadzenie

  1. Prace Powiązane

  2. MaGGIe

    3.1. Efektywne Maskowane Prowadzone Matowanie Instancji

    3.2. Czasowa Spójność Cechy-Matte

  3. Zbiory Danych do Matowania Instancji

    4.1. Matowanie Instancji Obrazu i 4.2. Matowanie Instancji Wideo

  4. Eksperymenty

    5.1. Wstępne trenowanie na danych obrazowych

    5.2. Trenowanie na danych wideo

  5. Dyskusja i Bibliografia

\ Materiały Uzupełniające

  1. Szczegóły Architektury

  2. Matowanie obrazu

    8.1. Generowanie i przygotowanie zbioru danych

    8.2. Szczegóły trenowania

    8.3. Szczegóły ilościowe

    8.4. Więcej wyników jakościowych na obrazach naturalnych

  3. Matowanie wideo

    9.1. Generowanie zbioru danych

    9.2. Szczegóły trenowania

    9.3. Szczegóły ilościowe

    9.4. Więcej wyników jakościowych

8.4. Więcej wyników jakościowych na obrazach naturalnych

Rys. 13 przedstawia wydajność naszego modelu w trudnych scenariuszach, szczególnie w dokładnym renderowaniu obszarów włosów. Nasze ramy konsekwentnie przewyższają MGM⋆ w zachowywaniu szczegółów, zwłaszcza w złożonych interakcjach instancji. W porównaniu z InstMatt, nasz model wykazuje lepsze rozdzielanie instancji i dokładność szczegółów w niejednoznacznych regionach.

\ Rys. 14 i Rys. 15 ilustrują wydajność naszego modelu i poprzednich prac w ekstremalnych przypadkach z wieloma instancjami. Podczas gdy MGM⋆ ma problemy z szumem i dokładnością w scenariuszach gęstych instancji, nasz model utrzymuje wysoką precyzję. InstMatt, bez dodatkowych danych treningowych, wykazuje ograniczenia w tych złożonych ustawieniach.

\ Solidność naszego podejścia opartego na prowadzeniu maską jest dodatkowo zademonstrowana na Rys. 16. Tutaj podkreślamy wyzwania, z jakimi borykają się warianty MGM i SparseMat w przewidywaniu brakujących części w danych wejściowych maski, którym nasz model przeciwdziała. Jednak ważne jest, aby zauważyć, że nasz model nie jest zaprojektowany jako sieć segmentacji instancji ludzkich. Jak pokazano na Rys. 17, nasze ramy przestrzegają wejściowego prowadzenia, zapewniając precyzyjną prognozę alpha matte nawet z wieloma instancjami w tej samej masce.

\ Wreszcie, Rys. 12 i Rys. 11 podkreślają możliwości generalizacji naszego modelu. Model dokładnie wyodrębnia zarówno ludzkie obiekty, jak i inne przedmioty z tła, demonstrując swoją wszechstronność w różnych scenariuszach i typach obiektów.

\ Wszystkie przykłady to obrazy internetowe bez ground-truth, a maska z r101fpn400e jest używana jako prowadzenie.

\ Rysunek 13. Nasz model tworzy bardzo szczegółowe alpha matte na obrazach naturalnych. Nasze wyniki pokazują, że jest dokładny i porównywalny z poprzednimi metodami niezależnymi od instancji i świadomymi instancji bez kosztownych kosztów obliczeniowych. Czerwone kwadraty powiększają regiony szczegółów dla każdej instancji. (Najlepiej oglądać w kolorze i z cyfrowym powiększeniem).

\ Rysunek 14. Nasze ramy precyzyjnie oddzielają instancje w ekstremalnym przypadku z wieloma instancjami. Podczas gdy MGM często powoduje nakładanie się instancji, a MGM⋆ zawiera szumy, nasze dają wyniki porównywalne z InstMatt trenowanym na zewnętrznym zbiorze danych. Czerwona strzałka wskazuje błędy. (Najlepiej oglądać w kolorze i z cyfrowym powiększeniem).

\ Rysunek 15. Nasze ramy precyzyjnie oddzielają instancje w jednym przejściu. Proponowane rozwiązanie pokazuje wyniki porównywalne z InstMatt i MGM bez uruchamiania prognozy/rafinacji pięć razy. Czerwona strzałka wskazuje błędy. (Najlepiej oglądać w kolorze i z cyfrowym powiększeniem).

\ Rysunek 16. W przeciwieństwie do MGM i SparseMat, nasz model jest odporny na maskę prowadzenia wejściowego. Dzięki głowicy uwagi nasz model tworzy bardziej stabilne wyniki dla wejść maski bez złożonej rafinacji między instancjami jak InstMatt. Czerwona strzałka wskazuje błędy. (Najlepiej oglądać w kolorze i z cyfrowym powiększeniem).

\ Rysunek 17. Nasze rozwiązanie działa poprawnie z prowadzeniem wieloinstancyjnej maski. Gdy wiele instancji istnieje w jednej masce prowadzącej, nadal tworzymy poprawne złączone alpha matte dla tych instancji. Czerwona strzałka wskazuje błędy lub region powiększenia w czerwonym polu. (Najlepiej oglądać w kolorze i z cyfrowym powiększeniem).

\ Tabela 12. Szczegóły wyników ilościowych na HIM2K+M-HIM2K (Rozszerzenie Tabeli 5). Szary oznacza publiczne wagi bez ponownego trenowania.

\ Tabela 12. Szczegóły wyników ilościowych na HIM2K+M-HIM2K (Rozszerzenie Tabeli 5). Szary oznacza publiczne wagi bez ponownego trenowania. (Kontynuacja)

\ Tabela 12. Szczegóły wyników ilościowych na HIM2K+M-HIM2K (Rozszerzenie Tabeli 5). Szary oznacza publiczne wagi bez ponownego trenowania. (Kontynuacja)

\ Tabela 12. Szczegóły wyników ilościowych na HIM2K+M-HIM2K (Rozszerzenie Tabeli 5). Szary oznacza publiczne wagi bez ponownego trenowania. (Kontynuacja)

\ Tabela 13. Skuteczność proponowanych modułów spójności czasowej na V-HIM60 (Rozszerzenie Tabeli 6). Kombinacja dwukierunkowego Conv-GRU i fuzji do przodu-do tyłu osiąga najlepszą ogólną wydajność na trzech zestawach testowych. Pogrubienie podkreśla najlepszy dla każdego poziomu.

\

:::info Autorzy:

(1) Chuong Huynh, University of Maryland, College Park ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected]).

:::


:::info Ten artykuł jest dostępny na arxiv na licencji CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Okazja rynkowa
Logo Mask Network
Cena Mask Network(MASK)
$0.5806
$0.5806$0.5806
+1.25%
USD
Mask Network (MASK) Wykres Ceny na Żywo
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z [email protected] w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.