MaGGIeは、自然画像における髪の毛のレンダリングとインスタンス分離に優れており、複雑なマルチインスタンスシナリオにおいてMGMおよびInstMattを上回るパフォーマンスを発揮します。MaGGIeは、自然画像における髪の毛のレンダリングとインスタンス分離に優れており、複雑なマルチインスタンスシナリオにおいてMGMおよびInstMattを上回るパフォーマンスを発揮します。

ロバストマスクガイドマッティング:ノイズ入力とオブジェクトの多様性への対応

概要と1. はじめに

  1. 関連研究

  2. MaGGIe

    3.1. 効率的なマスクガイド付きインスタンスマッティング

    3.2. 特徴マット時間的一貫性

  3. インスタンスマッティングデータセット

    4.1. 画像インスタンスマッティングと4.2. 動画インスタンスマッティング

  4. 実験

    5.1. 画像データでの事前学習

    5.2. 動画データでの学習

  5. 考察と参考文献

\ 補足資料

  1. アーキテクチャの詳細

  2. 画像マッティング

    8.1. データセット生成と準備

    8.2. 学習の詳細

    8.3. 定量的詳細

    8.4. 自然画像におけるさらなる定性的結果

  3. 動画マッティング

    9.1. データセット生成

    9.2. 学習の詳細

    9.3. 定量的詳細

    9.4. さらなる定性的結果

8.4. 自然画像におけるさらなる定性的結果

図13は、特に髪の領域を正確にレンダリングする、困難なシナリオにおける我々のモデルの性能を示している。我々のフレームワークは、特に複雑なインスタンス相互作用において、詳細の保持でMGM⋆を一貫して上回っている。InstMattと比較すると、我々のモデルは曖昧な領域において優れたインスタンス分離と詳細精度を示している。

\ 図14と図15は、複数のインスタンスを含む極端なケースにおける我々のモデルと以前の研究の性能を示している。MGM⋆が密集したインスタンスシナリオでノイズと精度に苦戦する一方で、我々のモデルは高い精度を維持している。追加の学習データがないInstMattは、これらの複雑な設定において限界を示している。

\ 我々のマスクガイドアプローチの堅牢性は図16でさらに実証されている。ここでは、マスク入力における欠落部分の予測においてMGM変種とSparseMatが直面する課題を強調しており、我々のモデルはこれに対処している。ただし、我々のモデルは人間インスタンスセグメンテーションネットワークとして設計されていないことに注意することが重要である。図17に示すように、我々のフレームワークは入力ガイダンスに従い、同じマスク内に複数のインスタンスがある場合でも正確なアルファマット予測を保証している。

\ 最後に、図12と図11は我々のモデルの汎化能力を強調している。モデルは人間の被写体と他のオブジェクトの両方を背景から正確に抽出し、様々なシナリオとオブジェクトタイプにわたる汎用性を示している。

\ すべての例はグランドトゥルースのないインターネット画像であり、r101fpn400eからのマスクがガイダンスとして使用されている。

\ 図13. 我々のモデルは自然画像上で高度に詳細なアルファマットを生成する。我々の結果は、高価な計算コストなしに以前のインスタンス非依存およびインスタンス認識手法と正確で匹敵することを示している。赤い四角は各インスタンスの詳細領域をズームインしている。(カラーおよびデジタルズームで最良の表示)

\ 図14. 我々のフレームワークは多数のインスタンスを持つ極端なケースでインスタンスを正確に分離する。MGMはしばしばインスタンス間の重複を引き起こし、MGM⋆はノイズを含む一方で、我々は外部データセットで学習されたInstMattと同等の結果を生成する。赤い矢印はエラーを示す。(カラーおよびデジタルズームで最良の表示)

\ 図15. 我々のフレームワークは1回のパスでインスタンスを正確に分離する。提案されたソリューションは、予測/精緻化を5回実行することなく、InstMattおよびMGMと同等の結果を示している。赤い矢印はエラーを示す。(カラーおよびデジタルズームで最良の表示)

\ 図16. MGMおよびSparseMatとは異なり、我々のモデルは入力ガイダンスマスクに対して堅牢である。アテンションヘッドにより、我々のモデルはInstMattのようなインスタンス間の複雑な精緻化なしに、マスク入力に対してより安定した結果を生成する。赤い矢印はエラーを示す。(カラーおよびデジタルズームで最良の表示)

\ 図17. 我々のソリューションは複数インスタンスマスクガイダンスで正しく動作する。1つのガイダンスマスクに複数のインスタンスが存在する場合でも、これらのインスタンスに対して正しい結合アルファマットを生成する。赤い矢印はエラーまたは赤いボックス内のズームイン領域を示す。(カラーおよびデジタルズームで最良の表示)

\ 表12. HIM2K+M-HIM2Kにおける定量的結果の詳細(表5の拡張)。グレーは再学習なしの公開重みを示す。

\ 表12. HIM2K+M-HIM2Kにおける定量的結果の詳細(表5の拡張)。グレーは再学習なしの公開重みを示す。(続き)

\ 表12. HIM2K+M-HIM2Kにおける定量的結果の詳細(表5の拡張)。グレーは再学習なしの公開重みを示す。(続き)

\ 表12. HIM2K+M-HIM2Kにおける定量的結果の詳細(表5の拡張)。グレーは再学習なしの公開重みを示す。(続き)

\ 表13. V-HIM60における提案された時間的一貫性モジュールの有効性(表6の拡張)。双方向Conv-GRUと順方向-逆方向融合の組み合わせが、3つのテストセットで最良の全体的な性能を達成する。太字は各レベルの最良を強調している。

\

:::info 著者:

(1) Chuong Huynh, University of Maryland, College Park ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected]).

:::


:::info この論文はarxivで利用可能です。CC by 4.0 Deed(表示4.0国際)ライセンスの下で提供されています。

:::

\

市場の機会
Mask Network ロゴ
Mask Network価格(MASK)
$0.5799
$0.5799$0.5799
+1.13%
USD
Mask Network (MASK) ライブ価格チャート
免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために [email protected] までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。