〇 前回の記事では、企業に「データドリブン」の文化を醸成するためには、ビジネスの目的を定義した上で、その目的から逆算してデータを分析していくことが重要と説明しました。今回は、分析対象となるデータの扱いについて整理します。
関連記事:システム戦略は「手段」にすぎない、ツール利用が目的化していないか?
そのデータは使える状態になっているのか?
ビジネスの現場を見ていると、多くの会社から「使えるデータがない」という悩みの声が聞こえてきます。その言葉の意味を掘り下げて聞いてみると、実は「データが使える状態になっていない」場合が少なくありません。
見込み客の情報を蓄積したデータベースを例に考えます。このデータベースは、見込み客ごとにデータ(レコード)があり、「会社名」という項目には、見込み客が所属する会社名を登録しています。
ここで別のレコードの会社名にそれぞれ、「株式会社日経BP」と「日経BP株式会社」と入力されている場合があったとします。人が見ると同一の会社のように推測できますが、システム上はデータが異なるため別の会社として扱ってしまいます。これでは効果的な分析どころか、会社名単位での整理もできません。
「役職名」という項目は、さらに複雑です。いわゆる“課長クラス”でも、会社ごとに「課長」「マネージャー」「リーダー」というように呼び方が異なるからです。アンケートなどで自分の役職を聞かれたとき、多くの人は名刺にある役職をそのまま答えるでしょう。
役職欄にデータが何も入力されておらず、空欄になっている場合もあるでしょう。これはその人に役職がないことを意味しますが、その人が本来の役職を記入しなかった(記入し忘れた)可能性もあります。
このように、集めたデータをそのままデータベースに登録するとどうなるでしょう。分析する側で想定する「あるべき役職の分布」と「データベース内の役職の分布」に大きな差が出ます(図)。これでは、役職ごとに顧客を絞り込むなどのデータ分析に活用できません。
図1、顧客が自分の肩書きをそのまま役職に入力した場合の「データベース内の役職の分布」は、データを分析する側で想定していた「あるべき役職の分布」と大きく異なる(データは事例を元に筆者が作成したもので事実ではない)。
そのために必要になるのが、「データクレンジング」という作業です。クレンジング(Cleansing)は「浄化する」という意味で、データクレンジングとは「データの誤りや重複を補正し、使える状態にする(正規化する)」ことを意味します。この作業はデータ件数が大きいほど膨大となり、たいへんな労力を必要とする場合があります。
私たちはよく、企業からデータクレンジングについて相談を受けます。その際に直面するのは、「データを正規化する前に、本来できているべき『データの定義』ができていない」という問題です。