gooブログはじめました!

データベースはビジネスに使える状態か? 分析の前提となる「定義」の重要性。

〇 前回の記事では、企業に「データドリブン」の文化を醸成するためには、ビジネスの目的を定義した上で、その目的から逆算してデータを分析していくことが重要と説明しました。今回は、分析対象となるデータの扱いについて整理します。

関連記事:システム戦略は「手段」にすぎない、ツール利用が目的化していないか?

(出所:123RF)
                                                   (出所:123RF)

そのデータは使える状態になっているのか?

ビジネスの現場を見ていると、多くの会社から「使えるデータがない」という悩みの声が聞こえてきます。その言葉の意味を掘り下げて聞いてみると、実は「データが使える状態になっていない」場合が少なくありません。

見込み客の情報を蓄積したデータベースを例に考えます。このデータベースは、見込み客ごとにデータ(レコード)があり、「会社名」という項目には、見込み客が所属する会社名を登録しています。

ここで別のレコードの会社名にそれぞれ、「株式会社日経BP」と「日経BP株式会社」と入力されている場合があったとします。人が見ると同一の会社のように推測できますが、システム上はデータが異なるため別の会社として扱ってしまいます。これでは効果的な分析どころか、会社名単位での整理もできません。

「役職名」という項目は、さらに複雑です。いわゆる“課長クラス”でも、会社ごとに「課長」「マネージャー」「リーダー」というように呼び方が異なるからです。アンケートなどで自分の役職を聞かれたとき、多くの人は名刺にある役職をそのまま答えるでしょう。

役職欄にデータが何も入力されておらず、空欄になっている場合もあるでしょう。これはその人に役職がないことを意味しますが、その人が本来の役職を記入しなかった(記入し忘れた)可能性もあります。

このように、集めたデータをそのままデータベースに登録するとどうなるでしょう。分析する側で想定する「あるべき役職の分布」と「データベース内の役職の分布」に大きな差が出ます()。これでは、役職ごとに顧客を絞り込むなどのデータ分析に活用できません。

図●顧客が自分の肩書きをそのまま役職に入力した場合の「データベース内の役職の分布」は、データを分析する側で想定していた「あるべき役職の分布」と大きく異なる(データは事例を元に筆者が作成したもので事実ではない)
図1、顧客が自分の肩書きをそのまま役職に入力した場合の「データベース内の役職の分布」は、データを分析する側で想定していた「あるべき役職の分布」と大きく異なる(データは事例を元に筆者が作成したもので事実ではない)。

そのために必要になるのが、「データクレンジング」という作業です。クレンジング(Cleansing)は「浄化する」という意味で、データクレンジングとは「データの誤りや重複を補正し、使える状態にする(正規化する)」ことを意味します。この作業はデータ件数が大きいほど膨大となり、たいへんな労力を必要とする場合があります。

私たちはよく、企業からデータクレンジングについて相談を受けます。その際に直面するのは、「データを正規化する前に、本来できているべき『データの定義』ができていない」という問題です。


ランキングに参加中。クリックして応援お願いします!

名前:
コメント:

※文字化け等の原因になりますので顔文字の投稿はお控えください。

コメント利用規約に同意の上コメント投稿を行ってください。

 

  • Xでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

最近の「〝 たぬき の 「 スマホ ・ パソコン 」 ワールド 〟」カテゴリーもっと見る

最近の記事
バックナンバー
人気記事