gooブログはじめました!

写真付きで日記や趣味を書くならgooブログ

画像データに関する主成分分析

2018-12-02 08:30:44 | ブログ
 多数の顔写真が登録してあるとする。ある人の顔の画像を得たとき、この人の顔写真が登録されているか否かをチェックすることによって本人の認証を行うシステムがある。

 たとえば多数の顔写真{fi},i=1,...,Nがあって、顔の大きさがほぼ一定になるように調節してあるとする。画像fiはn×n画像のn^2個の画素に1からn^2までの通し番号をつけ、その値を縦に並べたn^2次元列ベクトルとする。

 {fi}の平均をとれば、「平均顔」の画像g0が得られる。各画像からg0を引いた
fi’=fi-g0
は、平均顔からの差異を表す画像である。そのような代表的差画像の第1次近似をg1とする。さらに差画像の第2次近似をg2とする。これを続けて差画像の第3次以下の近似g3,g4,...を作る。

 このとき、g1,g2,g3,...が正規直交系であれば、画像fi’をg1,g2,g3,...の一次結合で表現することができ、次のように表記できる。
   fi=g0+ci1g1+ci2g2+ci3g3+...   (1)

 これは、個々の顔をまず平均顔で近似し、次に主たる特徴を補正し、さらに二次的な特徴を補正し、以下順に高次の特徴を補正しているとみなせる。

 正規直交基底g1,g2,g3,...を求めるために、統計学で主成分分析とよばれる技法を用いる。

 fi’がn個の画素から成る列ベクトルとすると、{fi}についてn×nの分散・共分散行列を計算する。次にこの行列についてn個の固有値を計算し、各固有値に対する固有ベクトルを求める。このn個の固有ベクトルが正規直交基底g1,g2,...,gnとなる。

 簡単のために画像は白黒画像とし、画像はn=4,8画素から成るものとし、画像数N=32とし、分散・共分散行列を計算し、固有値を求めた。ただし、g0が0ベクトルとなるように画像標本を作成した。

 n=4の場合の計算結果は、分散・共分散行列が単位行列となるので、ただ一通りの固有値=1しか得られない。

 標本数Nを非常に大きな数にすれば、データはランダム化されるので、g0が0ベクトルとなり、各分散が1、すべての共分散が0になる結果、分散・共分散行列が単位行列になることが予想される。

 このように、画像一般を対象としたとき、n個の画素は同等のチャネルとなり、同じカテゴリとなるので、特徴による差別化ができず、主成分分析の技法で扱うのは難しいことを知る。

 画素数が4,8程度であれば、画像ベクトルの総当たりで内積を計算することにより、各々4個と8個の固有ベクトルを見つけることができる。

 n=4の場合に、見つけた固有ベクトルの組を行ベクトルの形式で表現すると、次のようになる。
   (1111);(11-1-1);(1-11-1);(1-1-11)

 また、次の例も固有ベクトルの組であるので、一組のみとは限らない。
   (111-1);(11-11);(1-111);(1-1-11)

 n=8の場合には、n=4で見つけた最初の固有ベクトルの組を利用して、次のような固有ベクトルの組を作成できる。
   (11111111);(11-1-111-1-1);(1-11-11-11-1);(1-1-111-1-11);(1111-1-1-1-1);(11-1-1-1-111);(1-11-1-11-11);(1-1-11-111-1)

 n=4,8のいずれの場合についても、任意の画像ベクトルは、各固有ベクトルに重みを掛けたものの一次結合で表現できる。従って、すべての画像ベクトルは、原理的には(1)式のように表現できるものと予想される。

 何のことはない。結果的には10月28日付のブログで作成を試みた意味のない基底画像の段階に戻っていたのだ。

 冒頭の顔画像の識別問題について言及すれば、顔画像の中で識別のキーとなるような特徴領域のカテゴリを何か所か選び、各特徴領域を構成する画素パターンをまとめて一つの成分として分析するのではなかろうか。いずれにしても特徴領域の抽出には、事前の統計処理などそれなりのスキルとノウハウが必要になるのであろう。

 こうなると、単純な「平均顔」の画像をデザインし、いくつかの特徴領域のカテゴリを選択し、各特徴領域のデータをランダム化して、1000個程度の変形顔の画像をつくってみたくなる。ここでは、主成分分析の手法を逆用し、単純かつ人為的な分散・共分散行列を作成することになるだろう。変形顔の作成に当たり、遺伝的アルゴリズムが使えるのか否かも検討対象となる。

 参考文献
 金谷健一著「インターネット時代の数学―重ね合わせの原理と応用」(共立出版)
 長谷川勝也著「ホントにわかる多変量解析」(共立出版)