論文解説『TokenVerse: Versatile Multi-concept Personalization in Token Modulation Space』

概要と背景

近年のテキストからの画像生成技術は目覚ましい進歩を遂げたが、単一の画像から複数の視覚コンセプト(例:特定の人物、その人物が着ている服、その時のポーズや照明)を個別に抽出し、それらを新しい文脈で自由に組み合わせる「マルチコンセプト個人化」には課題があった。

本論文で提案するTokenVerseは、この課題を解決するものである。ユーザーが提供した画像と簡単なキャプション(説明文)だけを使い、マスクなどの追加情報なしで、複雑な視覚コンセプトを分離・学習し、それらを自在に再構成することを可能にする。

提案手法の核心

TokenVerseの核心は、事前学習済みのDiffusion Transformer (DiT)モデル内に存在する「変調空間」を、テキストトークン単位で局所的に制御する点にある。

Per-token Modulation空間の発見と活用

本研究の最も重要な発見は、DiTモデルの「変調空間(Modulation Space)」が、コンセプトの制御において非常に有効であることだ。従来の手法では、画像全体に影響を与える単一のベクトルで変調をかけていたため、局所的な制御が困難であった。

TokenVerseの革新は、キャプション内の各テキストトークン(例:「犬」「帽子」)に個別の変調ベクトルを適用する点にある。これにより、画像内の特定の部分だけを狙って、その見た目やスタイルを精密に制御することが可能になった。この新しい空間をPer-token Modulation空間と名付けている。

この局所的な制御能力が、1枚の画像から複数のコンセプトをきれいに分離(Disentangle)する技術の基盤となっている。

マスク不要のコンセプト分離学習

TokenVerseは、コンセプトを分離するために、ユーザーが手動で領域を指定するマスクを必要としない。具体的な学習は、コンセプト画像とキャプションを入力として、各トークンが持つべき独自の変調オフセット(方向ベクトル)を最適化することで行われる。この方向ベクトルが、特定の見た目やスタイルを表現する「個人化されたコンセプト」となる。

Concept Isolation Loss (コンセプト分離損失)

複数の画像から学習したコンセプトを組み合わせる際に互いに干渉し品質が低下する問題を解決するため、「コンセプト分離損失」を導入する。学習中に、学習対象のコンセプトと無関係な画像を組み合わせ、学習中のコンセプト変調が、無関係な画像領域に影響を与えないようにペナルティを課す。

この損失により、各コンセプトの独立性が高まり、よりクリーンな合成が可能になる。オブジェクトだけでなく、「ポーズ」「光の当たり方」「材質」といった抽象的な概念も同様に学習できるのが大きな強みである。

プラグアンドプレイによる自由なコンセプト合成

各画像から独立して学習したコンセプト(変調ベクトル)は、まるでレゴブロックのように自由に組み合わせることができる。例えば、画像Aから学習した「特定のウサギのぬいぐるみ」、画像Bから学習した「赤い縞模様のシャツ」、画像Cから学習した「サングラス」を、「サングラスをかけ、赤い縞模様のシャツを着たウサギのぬいぐるみ」という新しいプロンプトで組み合わせ、高品質な画像を生成できる。このプロセスに追加の学習は不要で、まさに「プラグアンドプレイ」である。

実験と評価

提案手法の有効性を検証するため、定性的・定量的評価、およびユーザー調査を実施した。

定性的評価

複数のコンセプト画像から「犬」「シャツ」「眼鏡」「ポーズ」「照明」といった多様なコンセプトを抽出し、それらを新規プロンプトで自在に組み合わせ、高品質で破綻のない画像を生成できることを示した。

定量的評価

既存手法(DreamBooth, Break-a-Scene, ConceptExpress, OMG等)との比較を行った。評価指標には、コンセプトの再現度(CP)とプロンプトへの忠実度(PF)を用いた。結果、TokenVerseは全てのタスクにおいて、コンセプト再現度(CP)で他手法を一貫して上回り、高いプロンプト忠実度を維持することを示した。

ユーザー調査

37人の参加者による評価でも、TokenVerseはコンセプトの再現度において最も高い評価を獲得し、定量的評価の結果を裏付けた。

考察と限界

Ablation Study (構成要素の分析)

手法の各要素(Per-token Modulation空間の利用、ブロックごとのオフセット、分離損失)を一つずつ取り除いて性能を比較し、全ての要素が最終的な品質向上に不可欠であることを示した。特に、Per-token Modulation空間の利用がコンセプト再現において最も重要な役割を果たしていた。

限界

本手法にはいくつかの限界も存在する。

  • コンセプトの混合:稀に、別々に学習した2つのコンセプトの変調ベクトルが似てしまい、生成画像で両者が混ざり合ってしまうことがある。この場合、両方の画像を同時に学習させることで回避できる。
  • キャプションの衝突:異なるコンセプトに同じ単語(例:2つの異なる人形に両方とも「doll」)を使うと、モデルが混乱することがある。これは、異なる単語を割り当てることで解決可能である。
  • 非互換な組み合わせ:手足の短い人形に複雑なヨガのポーズをさせるなど、物理的に不可能な組み合わせを試みると、意図しない結果になることがある。

まとめ

本研究は、マルチコンセプト個人化のための新しい手法「TokenVerse」を提案した。DiTモデルの変調空間をテキストトークン単位で制御するという独創的なアプローチにより、マスク等の補助情報なしに、単一画像から複数の視覚コンセプト(オブジェクト、ポーズ、照明など)を分離・学習し、それらをプラグアンドプレイで自由に組み合わせることを初めて可能にした。

TokenVerseは、テキストトークン単位で変調を制御するという独創的なアプローチにより、コンセプトの分離・学習・再構成の自由度を飛躍的に向上させた。これにより、クリエイターはより直感的かつ強力なコントロールを手に入れ、物語制作やパーソナライズされたコンテンツ作成など、無限の創造的可能性を拓くことができる。

原著論文

本記事で解説した論文は、以下のリンクから閲覧できる。

Garibi, D., et al. (2025). TokenVerse: Versatile Multi-concept Personalization in Token Modulation Space. in SIGGRAPH