AIの予測精度を高める上で欠かせない学習データとは?
AIsmiley編集部 200703 より編集
近年、AI技術の発展に伴ってさまざまな企業がAIを導入し始めており、従業員の働き方にも少しずつ変化が生まれている。
特に昨今は働き方改革が進められているため、AIを活用することで従業員一人ひとりの負担を軽減している企業も少なくない。
とはいえ、AIを活用して業務効率化を図るためには、より予測精度の高いAIを導入しなければならない。
そのAIの予測精度に大きく関わるのが「学習データ」であり、学習データがAI活用の成功を左右すると言っても過言ではない。
そこで今回は、AIの学習データについて紹介。
■ そもそもAI、機械学習、ディープラーニングの違いって何?
「学習データ」は、機械学習において必要となるデータのことだが、そもそも「機械学習」と「AI」は何が異なるのか。また、これらと一緒に耳にすることが多い「ディープラーニング」とは一体どのようなものなのか。これら3つを混同してしまっている人も少なくないので、まずは「AI」「機械学習」「ディープラーニング」の違いから。
まず、「AI」「機械学習」「ディープラーニング」のそれぞれを定義付けすると、
AIは「人間と同じような知能を実現するための技術」を指し、最も広範囲に用いられる言葉といえる。
機械学習は、「トレーニングによって特定のタスクを実行できるAI」と定義することができる。そのため、機械学習は「AIの内の一部を指す言葉」といえる。
そしてディープラーニングは、「マシンが特徴を自動で定義すること」を指す言葉であり、機械学習の中の一部分と定義することができる。
そのため、それぞれの関係性としては「AI > 機械学習 > ディープラーニング」となっている。
このような関係性であることから、AIという言葉が最も頻繁に使われている傾向にあり、中には機械学習やディープラーニングも「AI」という言葉でまとめられてしまっているケースもある。
しかし、ここでご紹介したように「AI」「機械学習」「ディープラーニング」はそれぞれ異なる意味合いを持つ言葉なので、それぞれの違いをしっかりと把握しておくことが大切。
これらを踏まえた上で、ここからは今回のテーマである「学習データ」についてみていく。
■ AIの学習データとは?
学習データとは、機械学習モデルを学習させる上で必要となる情報のこと。AIは、この情報を何度も使用しながら予測の調整を行うことで、正解率を高めていく。学習データはさまざまな方法でAIに活用されるわけだが、それはあくまでも予測の精度を高めることが目的となっている。
そんな学習データの中には「入力データ」と「出力データ」という2種類のデータが含まれ、これら2種類のデータは「グラウンドトゥルース (ground truth)」とも呼ぶのだが、機械学習モデルはグランドトゥルースをもとに、ニューラルネットワークなどの技術を活用してアルゴリズムを生成している。
なお、変数や関連する詳細は、機械学習のプロセスにおいて必要不可欠なものであり、異なる機械学習タスクのデータセット(入力データと出力データ)の見かけは大きく異なる。
■ 学習データの作成には大きな負担がかかる
機械学習モデルの学習において「学習データ」は必要不可欠なものであることがお分かりいただけたかと思うが、AIが自律的に学習できるような環境を整えるためには、より多くの学習データを用意する必要がある。しかし、ただ大量にデータを用意すれば良いというわけでもなく、ノイズとなるデータを消去するなどの加工が必要になる。
AIが学習できるデータに加工するためには、まず「アノテーション」という作業が必要になる。
アノテーションとは、データに対してタグを付けていく作業のこと。
AIがパターンを認識するためにはタグが必要不可欠であるため、このアノテーションという作業も絶対に欠かせない。ちなみに自然言語処理のためのアノテーションとしては、以下のようなものが挙げられる。
・意味的アノテーション
分解した情報に対して、同じ意味を持つものにタグを付けていく作業のこと。たとえば「リモートコントローラー」と「リモコン」は同じ意味の言葉といえる。こういった同じ意味を持つ言葉をタグ付けしていく作業が意味的アノテーション。
・固有表現アノテーション
人名や企業名、商品名など、文章内のさまざまな単語をカテゴライズし、タグ付けしていく作業のこと。「Yahoo=企業名」「スティーブ・ジョブズ=人名」「MacBook=商品名」といったように、それぞれの単語にタグ付けをしていく作業が固有表現アノテーションとなる。
・言語的アノテーション
対象となる文章がどのようなテーマなのかタグ付けしていく作業のこと。「スポーツ」「音楽」「政治」など、文章のテーマを定義していく。GoogleやYahooのニュースがジャンルごとに分けられているのをご覧になったことがある方も多いでしょう。あれはまさに、この言語的アノテーションが活用されている例。
主にこれらのようなアノテーションが挙げられるわけだが、日本語と英語ではアノテーション作業のガイドラインが少し異なるという点にも注目すべき。
日本語の場合、英語とは異なり大文字小文字の違いがない。また、主語が省略されるケースが多々あるのも大きな特徴で、そのため、どうしても機械的に判断しにくい傾向にある。そのため、日本語の場合は「ここからここまでが名詞」「ここからここまでが動詞」といった形でタグ付けを行う必要がある。
■ 学習データがAI活用の成功を左右する
今回は、機械学習において必要不可欠な「学習データ」について紹介した。学習データがなければAIを活用することはできない。そのため、学習データの質がAI活用の成功を左右すると言っても決して過言ではない。
質の悪いデータを利用してしまった場合、AIがデタラメな予測を行ってしまうリスクも高まるため、その重要性を理解した上で学習データを作成していくことが大切。今後AIの活用を検討していく際には、ぜひこれらのポイントを参考にしながら学習データの作成を進めてみてほしい。
💋バイアスのかけられたデータ、一党独裁思想とか、何処ぞの国の…恐怖のAIが…
HAL、スカイネット…