E資格のためのWasserstein GAN - ITエンジニアノイのブログ

解説する論文

タイトル: Wasserstein GAN
著者: Martin Arjovsky, Soumith Chintala, Léon Bottou
論文のURL: arXiv PDFリンク

専門外の人でもざっくり分かる解説

この研究は、Wasserstein GAN（WGAN）という新しいタイプの生成敵対ネットワーク（GAN）を導入しています。WGANは、生成されたデータの品質を向上させると同時に、学習プロセスの安定性を高めることが特徴です。

要約

この論文の新しい点

従来のGANの訓練不安定性を解決するために、Earth Mover（EM）距離を最小化することに焦点を当てたWGANを提案しています。

実験内容

WGANは、画像生成タスクにおいて標準的なGANよりも優れた結果を示しました。

実験結果

EM距離の使用により、モード崩壊の問題が軽減され、生成された画像の多様性が向上しました。

論文解説

Wasserstein GAN（WGAN）

WGANではワッサースタイン損失の導入でモード崩壊が起きにくくなるようにしています。

ワッサースタイン距離

ワッサースタイン距離（またはアース・ムーバー距離）は、ある確率分布から別の確率分布へ「質量」を最適に移動させるのに必要な最小コストを表します。この距離は、確率分布間の差異を評価する方法として有用であり、特に分布が低次元の多様体に支えられている場合に適しています。この概念は、生成敵対ネットワーク（GAN）の訓練で利用され、Wasserstein GAN（WGAN）では、モデルの安定性と収束性を向上させるためにこの距離を最小化する手法が採用されています。

ワッサースタイン距離

ワッサースタイン距離の基本的な式は、確率分布μ と ν 間の最小輸送コストを計算するものです。記号 "inf" は、数学用語で「下限」（infimum）を表します。これは、与えられた集合内の要素に対して、それらの要素の下限（最小限）を示す値です。ワッサースタイン距離の文脈では、すべての可能な結合分布 γ について、輸送コスト ||x−y|| の総和が最小になる値を求めるときに使用されます。つまり、すべての可能な輸送計画の中で最も効率的なものを見つけることを意味しています。

目的関数

通常のGAN 通常のGANの目的関数は次のように定義されます：
通常のGANの目的関数
ここで、D(x) は識別器の出力であり、実データ x が実際のデータである確率を表します。G(z) は生成器の出力で、入力ノイズ z からデータを生成します。
Wasserstein GANの目的関数 Wasserstein GANの目的関数は次のように定義されます：
Wasserstein GANの目的関数
この場合、D は識別器ではなく「クリティック」であり、生成されたデータと実データのワッサースタイン距離を評価するための関数です。集合 D における1-リプシッツ関数は、その全ての関数がリプシッツ条件を満たす関数の集合を指します。具体的には、ある定数K≤1 が存在して、任意の x と y に対して以下の不等式が成り立ちます： ∣f(x)−f(y)∣≤K||x−y|| この条件により、関数の傾き（変化率）が最大で1と制限され、関数の振る舞いが制御され、より安定した学習が期待されます。この性質は、Wasserstein GANにおいて生成器とクリティック間の学習を助けるために用いられます。
リプシッツ条件

リプシッツ条件は、関数の連続性と滑らかさを特定する数学的条件です。この条件では、関数 f がリプシッツ連続であるとは、全ての x と y に対して、ある定数 L（リプシッツ定数）が存在し、次の不等式を満たすことを意味します： ∣f(x)−f(y)∣≤L||x−y|| この条件を満たす関数は、その勾配（または変化率）が最大で L に制限され、関数の振る舞いがある意味で予測可能になります。この性質は、特に数学的最適化や解析において重要です。

ワッサースタイン損失

ワッサースタイン損失は、生成モデルが実際のデータ分布とどれだけ異なるかを測る方法です。この損失関数は、通常のGANで見られるモード崩壊や訓練の不安定性を軽減するために設計されました。Wasserstein GANでは、この損失を最小化することで、よりリアルで多様なデータを生成できるようになります。ワッサースタイン損失は、Wasserstein GAN（WGAN）で使用される損失関数で、次のように定義されます：