概要
本稿で紹介するVGGTは、単一または数百枚の画像ビューから、カメラパラメータ、ポイントマップ、デプスマップ、3Dポイントトラックといったシーンの主要な3D属性すべてを直接推論するフィードフォワード型のニューラルネットワークである。このアプローチは、従来単一のタスクに特化していた3Dコンピュータビジョンにおける大きな前進だ。シンプルかつ効率的であり、1秒未満で画像を再構築し、視覚幾何学的な最適化技術による後処理を必要とする他の手法をしばしば凌駕する性能を示す。
従来の3D再構築技術は、バンドル調整(Bundle Adjustment)のような反復的な最適化手法に大きく依存してきた。VGGTは、このような幾何学的な後処理をほぼ不要にし、大規模なTransformerモデルを用いて3Dタスクを直接解決することを目指したものである。
VGGT論文の革新性
VGGTは、3D再構築の新たなパラダイムを切り拓く、以下の5つの主要な革新性を持つ。
1. 統合された「オールインワン」のフィードフォワードモデル
VGGTの最大の革新は、単一のニューラルネットワークが、一度の順伝播(フィードフォワード)で3Dシーンの主要な属性(カメラパラメータ、デプスマップ、ポイントマップ、3Dトラック)をすべて直接出力する点にある。これは、複数の専門的なステージに分かれていた従来のパイプラインとは根本的に異なるアプローチである。
2. 幾何学的最適化(後処理)の原則不要化
従来手法や近年の学習ベースの手法が、最終的な精度を出すためにバンドル調整などの時間のかかる最適化(後処理)を必要としたのに対し、VGGTは後処理なしの生の出力で、これらの手法を凌駕する性能を達成する。これは、3D再構築を「最適化問題」から「大規模な学習による直接推論問題」へとパラダイムシフトさせる、非常に重要な一歩である。
3. 圧倒的なスケーラビリティ:数百枚のビューを同時処理
先行研究の多くが2枚の画像のペア処理に限定されていたのに対し、VGGTは1枚から数百枚の画像を一度に処理できる。これにより、シーン全体の文脈をより広範に捉えることが可能となり、再構築の頑健性と一貫性が大幅に向上した。
4. 独自の「Alternating-Attention」アーキテクチャ
VGGTは、標準的なTransformerに少し変更を加えた「Alternating-Attention」機構を採用している。これは、各画像内のトークンに注目する「フレームワイズ自己注意」と、全画像のトークンを横断的に見る「グローバル自己注意」を交互に繰り返す構造である。この設計が、各画像の詳細な特徴を維持しつつ、複数のビューにまたがる幾何学的な一貫性を効率的に学習するための鍵となっている。
5. 汎用的な特徴量バックボーンとしての価値
VGGTは単に3D再構築を行うだけでなく、その学習済みモデルが非常に強力な特徴量抽出器(バックボーン)として機能することを示した。VGGTの学習済み重みを用いて、新規視点合成や動的シーンの点追跡といった下流タスクの性能を大幅に向上させている。
アーキテクチャ詳細
VGGTのアーキテクチャは、3Dに関する帰納的バイアスを最小限に抑えた、比較的標準的な大規模Transformerに基づいている。
- 特徴抽出: 入力画像はDINOv2モデルによってパッチ化され、トークンに変換される。
- トークン拡張: 各画像のトークンに、カメラパラメータ予測用の「カメラトークン」が追加される。
- Alternating-Attention Transformer: 上記で解説した独自のTransformer構造で情報を処理する。
- 予測ヘッド: カメラヘッドとDPTヘッドが、それぞれカメラパラメータと密な3D属性(デプス、ポイントマップ等)を予測する。
実験結果
VGGTは、カメラ姿勢推定、多視点デプス推定、密な点群再構築、3D点追跡といった複数のタスクにおいて、既存の最先端手法を上回る、あるいは同等の性能を後処理なしで達成した。
- カメラ姿勢推定: CO3Dv2データセット等で、後処理を行うDUSt3Rよりも高い精度を、大幅に高速な処理時間(0.2秒程度)で達成した。
- 多視点デプス推定: DTUデータセットにおいて、GTカメラ情報を利用しない手法の中でDUSt3Rを大幅に上回り、GTカメラ情報を利用する手法に匹敵する結果を示した。
- 点群再構築: ETH3Dデータセットにおいて、高コストな最適化を行う手法よりも、フィードフォワードのみで優れた精度を達成した。
結論
VGGTは、単一のフィードフォワード型ニューラルネットワークで、複数の視点からシーンの主要な3D属性を直接かつ高精度に推定できることを示した。これは、従来の最適化ベースのアプローチからの脱却を意味し、シンプルさと効率性において大きな利点を持つ。本研究は、3D再構築のための新しい基盤を提供し、今後の研究を促進することが期待される。
原著論文
本記事で解説した論文は、以下のリンクから閲覧できる。
Wang, J., et al. (2025). VGGT: Visual Geometry Grounded Transformer. In CVPR.