混合正規分布の推定(Gibbs Sampling)

はじめに

今回はガウス混合分布の平均と精度が未知の場合のギブスサンプリングについてメモしとこうと思います。また、解釈の間違いなどがあったら教えていただきたいです。

ガウス混合分布

ガウス混合正規分布の数式は以下の通りで、潜在変数とクラスタごと平均と精度行列を導入します。

${\displaystyle p(\bf{x_n}| \bf{s_n}, \bf{μ}, \bf{ \Lambda}) = \prod_k^{K} N( \bf{x_n} | \bf{μ}_k , \Lambda_k)^{s_{n,k}} }$

また、 $\bf{π}$ はカテゴリ分布に従います。

${\displaystyle p(\bf{s_n}| \bf{ π})= Cat(\bf{ s_n} | \bf{π}) }$

$\sum_k^{K} \pi_k = 1$

２つのパラメーターに対して事前分布を導入しますが、この場合の共役事前分布はガウス・ウィシャート分布です。

${\displaystyle p( \bf{μ} ,\bf{ \Lambda}) = N(\bf{μ}_k | \bf{m}, (\beta \Lambda_k)^{-1})W( \bf{ \Lambda_k}| \nu, \bf{W}) }$

ギブスサンプリング

ギブスサンプリングでは、潜在変数と分布に関連するパラメータの事後分布に分けてサンプリングすることを考えます。

$p( \bf{S}, \bf{ μ}, \bf{ \Lambda}, \bf{π}| \bf{X})$

$\bf{S} \sim p( \bf{S}| \bf{X}, \bf{ μ}, \bf{ \Lambda}, \bf{ π})$

$\bf{ μ}, \bf{ \Lambda}, \bf{ π} \sim p( \bf{ μ}, \bf{ \Lambda}, \bf{ π}| \bf{X} ,\bf{S} )$

潜在変数の事後分布

ベイズの定理を使って、 $\bf{S}$ に関係する項だけをとります。

$p( \bf{S}| \bf{X}, \bf{ μ}, \bf{ \Lambda}, \bf{π}) \propto p(\bf{X} | \bf{ μ}, \bf{ \Lambda, \bf{S}})p(\bf{S} | \bf{π}) = \prod_n^{N} p( \bf{x_n} | \bf{s_n} ,\bf{ μ}, \bf{ \Lambda})p( \bf{s_n} | \bf{π})$

上記の式に対数を取って展開した上で $s_{n,k}$ でまとめると(１項は指数部以外は定数とする)、

$\log p( \bf{x_n} | \bf{s_n} , \bf{ μ}, \bf{ \Lambda}) = \sum_k^{K} s_{n,k} \Big \{ \frac{1}{2} ( \bf{x_n} -\bf{μ}_k ) \Lambda_k ( \bf{x_n} - \bf{μ}_k)^{t} + \frac{1}{2} \log | \Lambda_k | + \log \pi_k \Big \} + const$

よって、カテゴリ分布になります。

$\bf{s_n} \sim Cat ( \bf{s_n} | \bf{η_n} )$

$η_{n,k} \propto exp \big \{ \frac{1}{2} ( \bf{x_n} - \bf{μ}_k) \Lambda_k ( \bf{x_n} - \bf{μ}_k)^{t} + \frac{1}{2} \log | \Lambda_k | + \log \pi_k \big \}$

$\sum_k^{K} η_{n,k} = 1$

パラメータの事後分布

ベイズの定理を用いて変形すると、グラフィカルモデルで考えると分かるのですが、混合率とそれ以外のパラメータの分布は独立に分解できます。

$p( \bf{ μ}, \bf{ \Lambda}, \bf{π}| \bf{X} ,\bf{S} ) \propto p(\bf{X} | \bf{ μ}, \bf{ \Lambda, \bf{S}})p( \bf{ μ}, \bf{ \Lambda})p(\bf{S} | \bf{ π}) p( \bf{ π})$

潜在変数と混合率に関連した分布の後方の２項は、ポアソン混合分布のと同じなのでそれを用いて、

${\displaystyle p( \bf{S} | \bf{π})p( \bf{π}) = Dir( \bf{π} | \bf{\hat{α}}) \\ \hat{\alpha_k} = \sum_n^{N}s_{n,k} + \alpha_k }$

今回は前方の２項を計算すれば良いので、

$p(\bf{X} | \bf{ μ}, \bf{ \Lambda, \bf{S}})p( \bf{ μ}, \bf{ \Lambda}) = \sum_k^{K} \Big \{ \sum_n^{N} \big \{ s_{n,k} \log N( \bf{x_n} |\bf{μ}_k, \bf{ \Lambda_k}^{-1}) \big \}N(\bf{μ}_k| \bf{ m_k}, \bf{ ( \beta \Lambda_k})^{-1})W( \bf{ \Lambda_k }| \nu, \bf{W}) \Big \}$