2017年11月5日のブログ記事一覧-gooブログはじめました！

人工知能の学習方法を検討する

2017-11-05 08:45:55 | ブログ

　現代の人工知能では、複数個の神経細胞（ニューロン）を階層的に接続したニューラルネットワークが用いられる。ニューラルネットワークは、入力層、一つまたは複数個の中間層、および出力層から構成される。モデル化された各ニューロンは、ユニットとも呼ばれる。

　入力層は、入力される学習データをそのまま出力するユニット群を備える。中間層の各ユニットは、複数の入力データの各々に重みｗを掛けて入力データの全体について総和をとったものと、しきい値（バイアスｂとも呼ばれる）との和を全体的な入力データｚとし、この入力データｚをある活性化関数ａ（ｚ）に入力して得られる出力値ｙ＝ａ（ｚ）を出力データとする。出力層の各ユニットは、中間層の各ユニットと同じ計算式の計算を行い、ネットワークが算出した結果を提示する。

　入力データと、中間層、出力層による出力データの値は、変数として扱われるが、各ユニットに固有の重みｗとバイアスｂとは、パラメータとして扱われる。一つのユニットにｎ個の入力があるとすれば、重みｗ＝（ｗ１，ｗ２，．．．ｗｎ）もｎ個必要になる。すべての重みｗおよびバイアスｂは互いに独立であると考えるので、ニューラルネットワーク全体のパラメータの数は膨大なものとなる。

　このニューラルネットワークを用いた学習とは、入力層のユニット群へ一組の学習データを入力して中間層と出力層による上記の計算式による計算を行わせ、出力層に計算結果を得るというプロセスを多数組の学習データについて繰り返し、教師あり学習では、投入した学習データ全体について計算結果と正解との差分が最小となるようにパラメータ群を決定することである。

　結果データａと正解ｔとの誤差はａ－ｔとなるので、この誤差を最小にする最小２乗法によれば、２乗誤差Ｃは、（１／２）（ａ－ｔ）＾２で与えられる。出力層が２つのユニットで構成されるとし、各々の結果出力ａ１，ａ２に対応する正解をｔ１，ｔ２とすると、Ｃは次の式で表される。
　　　Ｃ＝（１／２）｛（ａ１－ｔ１）＾２＋（ａ２－ｔ２）＾２｝

　このＣは、変数ａ１，ａ２の関数であり、コスト関数、損失関数、目的関数などと呼ばれる。コスト関数Ｃは、入力されるｋ番目の学習データのコスト関数Ｃ［ｋ］の総和と考えられる。Ｎ組の学習データがあるとすると、Ｃは
　　　Ｃ＝Ｃ［１］＋Ｃ［２］＋．．．＋Ｃ［ｋ］＋．．．＋Ｃ［Ｎ］
となる。ここで、
　　　Ｃ［ｋ］＝（１／２）｛（ａ１［ｋ］－ｔ１［ｋ］）＾２＋（ａ２［ｋ］－ｔ２［ｋ］）＾２｝
である。ａ［ｋ］，ｔ［ｋ］は、ｋ番目の学習データに関するａ，ｔである。

　コスト関数Ｃが出力結果の活性化関数ａ１（ｚ）とａ２（ｚ）を含むということは、出力層の重みとバイアスのすべてばかりでなく、中間層の重みとバイアスのすべてを含むことを意味する。従って、Ｃはネットワークに存在する重みとバイアスのすべてを含むから、Ｃ＝ｆ（ｗ，ｂ）のように表現できる多変数関数である。ここで、ｗはすべての重みを要素とするベクトル、ｂはすべてのバイアスを要素とするベクトルである。活性化関数ａ（ｚ）が非線形関数であるため、コスト関数Ｃは非線形関数となる。

　こうなると、学習のポイントは、関数Ｃ＝ｆ（ｗ，ｂ）を最小にするようなパラメータ群（ｗ，ｂ）を求めることに帰着する。

　ニューラルネットワークの学習とは、そのコスト関数を最適化することであると分かった。その技法は、線形計画法に似ている。しかし、線形計画法の目的関数が線形関数であるのに対して、ニューラルネットワークのコスト関数は非線形関数である。一般に非線形関数の最適化には、以下に述べるような問題点が生じる。

　参考文献１は、このようなコスト関数Ｃの最小値を探すための技法について分かりやすく書かれている。さらに、訓練用の学習データを６４組備え、Ｅｘｃｅｌを用いて具体的なニューラルネットワークのコスト関数が最小になるようなパラメータ群（ｗ，ｂ）を計算する手法を提示している。

　参考文献１の例題は、簡単なニューラルネットワークの事例であり、コスト関数Ｃの値が０になるようにつくってある。これは、関数Ｃ＝ｆ（ｗ，ｂ）の最小値であることは言うまでもない。

　しかし、現実の多くのニューラルネットワークでは、コスト関数値が最小値だけではなく、より値の大きい極小値をもつようなケースが現れるという問題がある。

　多変数関数の最小値を探すための方法として勾配降下法という技法が知られている。これは、コスト関数の値が減る方向にパラメータ群（ｗ，ｂ）を少しずつ変えていき、コスト（誤差）が最低になるところに到達することを目指すものである。しかし、コスト関数の極小点に停留すると、ここから脱出することが不可能になる。

　参考文献１，２は、コスト関数あるいは損失関数がパラメータ群の値に依存しており、極小点や最小点をもつことを説明しているが、抽象的過ぎて、具体的にどのような条件の下で望ましくない極小点が発生するのか明らかでない。

　そこで、この点を明解にするために、できるだけ少数の学習データを用いて、少なくとも一つの極小点と最小点が生じるようなサンプルを構築できないものかと考える。

　参考文献１の例題は、コスト関数Ｃの最小値しかもたないのであるから、Ｃは２次関数的である。しかも例題の簡素なネットワーク構成でコスト関数が最小値０に達しているのであるから、学習データの数は充分であろう。そうすると、この例題の中間層のユニットの数を増やすか、中間層の層数を増やすことによって、この例題のコスト関数を３次関数的にし、１つの極小点と最小点をもつようにできないものかと考える。最小値０は保存されるものと期待する。

　この試みは宿題とし、検討を続ける。

　参考文献
　１．涌井良幸など著「ディープラーニングがわかる数学入門」（技術評論社）
　２．甘利俊一著「脳・心・人工知能」（ブルーバックス）

2017年11月
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

gooブログはじめました！

写真付きで日記や趣味を書くならgooブログ

人工知能の学習方法を検討する