ナカナカピエロのうわのそら(情報幾何学)
甘利俊一先生が開拓した情報幾何学をマスターしたいと昔から思っているが、未だに理解できていない。
昔、私は情報幾何学の特に双対の概念について以下の走り書きを書いた。
・ルジャンドル変換と情報幾何
今回は、以下の資料を元にもうちょっと分かりやすい走り書きを書いてみることとした。
・情報幾何で見る機械学習 赤穂昭太郎
まず情報幾何において与えられたサンプルデータを統計モデル上で考えたい時に滑らかな統計モデルを考え、
そこに誤差を加味してもっともモデルにフィットする点を見出すために統計モデルへの垂線(射影とも言う)を考える
ことは重要である。
ここでは簡単に正規分布を考えると平均値であるμと標準偏差であるσの二次元平面を考えると、
この二つのパラメタで正規分布族の全てが決まるわけだが、ここで垂線を下すとして当然正規分布の統計モデル
は平坦(e)でもなければ、真っ直ぐ(m)と言っても実はぐにゃぐにゃ曲がっている。(eとmは双対である)
そんな世界の中で、我々は得られたデータと統計モデルを結びつけることができるのだろうかという疑問が生じる。
そこで甘利俊一先生は微分幾何の概念をベースに情報の中に幾何的構造を入れて多様体として扱うという試みをされた。
例えば、μとσの2次元平面内の距離を考えても、なだらかな正規分布間の距離と尖った正規分布間の距離は
ユークリッド空間とは異なり現実的に意味が異なってくる。(上記資料のP.11/75参照)
そうすると当然空間は曲がっており、微分幾何的構造を入れざるを得ない状況となる。
通常のリーマン幾何では各座標近傍に接空間を考えて曲率(リーマン計量)を考え、各座標の接続(レビ・チビタ接続)を
考える。それでは情報幾何ではどうか。
情報幾何ではこの曲率がフィッシャー情報行列になるということである。(この辺りから理解が怪しくなる。)
何故、フィッシャー情報行列が活用されるかはクラメール・ラオの不等式から分散の下限がフィッシャー情報行列の平均値
の逆数よりも大きくなることが証明されており、これにより逆数が大きいほど、きめの粗い統計モデルになることが分かる
からである。
次の話として接続を考える。通常の微分幾何であれば、局所座標近傍の基底ベクトルの曲率を加味して接続を考える。
こうやって向きを変えずに接続を繰り返してできたアウトラインを測地線と呼ぶ。
通常の微分幾何ではレビ・チビタ接続を考えるが、情報幾何ではα接続という新たな接続方法を導入する。
多分、平坦(e)と真っ直ぐ(m)とは双対ではありながらも情報幾何では互いに別々な概念であり、自由度を高くして
考えたかったのだろう。(個人的見解。)
ここでα接続の特別な場合として、「指数分布族」と「混合分布族」とがあり、それぞれ(e-平坦、e-接続)、(m-平坦、m-接続)
と呼ぶ。(このe-mは双対空間となっており、ルジャンドル変換で繋がっている?)
つまるところ2つの間で相互に座標変換ができるということ。
ここで改めて、情報幾何における平坦と接続の概念が整備されたところで、統計モデル間のダイバージェンスが定義できる。
機械学習の分野で出てくるEMアルゴリズムなどの幾何学的解釈にこれら情報幾何の概念が役立つ。
とりあえずここまで。間違え等あれば一報くれたし。
完全理解したいなあっと思っている以下の本。
・新版 情報幾何学の新展開 (SGCライブラリ) 甘利 俊一
甘利俊一先生が開拓した情報幾何学をマスターしたいと昔から思っているが、未だに理解できていない。
昔、私は情報幾何学の特に双対の概念について以下の走り書きを書いた。
・ルジャンドル変換と情報幾何
今回は、以下の資料を元にもうちょっと分かりやすい走り書きを書いてみることとした。
・情報幾何で見る機械学習 赤穂昭太郎
まず情報幾何において与えられたサンプルデータを統計モデル上で考えたい時に滑らかな統計モデルを考え、
そこに誤差を加味してもっともモデルにフィットする点を見出すために統計モデルへの垂線(射影とも言う)を考える
ことは重要である。
ここでは簡単に正規分布を考えると平均値であるμと標準偏差であるσの二次元平面を考えると、
この二つのパラメタで正規分布族の全てが決まるわけだが、ここで垂線を下すとして当然正規分布の統計モデル
は平坦(e)でもなければ、真っ直ぐ(m)と言っても実はぐにゃぐにゃ曲がっている。(eとmは双対である)
そんな世界の中で、我々は得られたデータと統計モデルを結びつけることができるのだろうかという疑問が生じる。
そこで甘利俊一先生は微分幾何の概念をベースに情報の中に幾何的構造を入れて多様体として扱うという試みをされた。
例えば、μとσの2次元平面内の距離を考えても、なだらかな正規分布間の距離と尖った正規分布間の距離は
ユークリッド空間とは異なり現実的に意味が異なってくる。(上記資料のP.11/75参照)
そうすると当然空間は曲がっており、微分幾何的構造を入れざるを得ない状況となる。
通常のリーマン幾何では各座標近傍に接空間を考えて曲率(リーマン計量)を考え、各座標の接続(レビ・チビタ接続)を
考える。それでは情報幾何ではどうか。
情報幾何ではこの曲率がフィッシャー情報行列になるということである。(この辺りから理解が怪しくなる。)
何故、フィッシャー情報行列が活用されるかはクラメール・ラオの不等式から分散の下限がフィッシャー情報行列の平均値
の逆数よりも大きくなることが証明されており、これにより逆数が大きいほど、きめの粗い統計モデルになることが分かる
からである。
次の話として接続を考える。通常の微分幾何であれば、局所座標近傍の基底ベクトルの曲率を加味して接続を考える。
こうやって向きを変えずに接続を繰り返してできたアウトラインを測地線と呼ぶ。
通常の微分幾何ではレビ・チビタ接続を考えるが、情報幾何ではα接続という新たな接続方法を導入する。
多分、平坦(e)と真っ直ぐ(m)とは双対ではありながらも情報幾何では互いに別々な概念であり、自由度を高くして
考えたかったのだろう。(個人的見解。)
ここでα接続の特別な場合として、「指数分布族」と「混合分布族」とがあり、それぞれ(e-平坦、e-接続)、(m-平坦、m-接続)
と呼ぶ。(このe-mは双対空間となっており、ルジャンドル変換で繋がっている?)
つまるところ2つの間で相互に座標変換ができるということ。
ここで改めて、情報幾何における平坦と接続の概念が整備されたところで、統計モデル間のダイバージェンスが定義できる。
機械学習の分野で出てくるEMアルゴリズムなどの幾何学的解釈にこれら情報幾何の概念が役立つ。
とりあえずここまで。間違え等あれば一報くれたし。
完全理解したいなあっと思っている以下の本。
・新版 情報幾何学の新展開 (SGCライブラリ) 甘利 俊一