ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

どんなデータをそろえると、どんな分析ができて、どのように経営に役立つか-その1 流通業編

2014-12-24 11:06:48 | AI・BigData
今日の夢が微妙な夢で、

「某社(夢の中では会社名が出ていたけど省略)
 の心無いビッグデータ活用のあおりのおかげで、

 一般の人は
   どのようなデータを集めたら、
   どのような分析が行え、
   どのような効果が出るかわからず、
 ビッグデータに投資した企業が没落し、社会が崩壊する・・・」

って感じなんだけど、

まあたしかに、

「どのようなデータをそろえると、
 どのような分析が出来て、
 どのくらい経営に貢献するか」

というのは誰も書いていないので、投資に失敗する可能性はあるわな・・・
(でも、社会は崩壊しないと思うけど・・)

というので、そんへんについて書いてみる。
今回は、主に流通(とくに小売)向け

実は、その夢に出てくるように、意外な結末になるのだ・・・




■データの種類-どのようなデータを集めたら

データ分析用のデータは、以下のようなものが必要で、
1から2,2から3と、順番に整備していかないと、
意味のないデータ解析になる危険性がある*。


1.売上データと商品データ
→バスケットレベルが吉、商品データが売上データに入っていれば、それでもよし
→そのとき何が店舗に出ていたかの情報があると(仕入れと在庫量が分かると出る)
 吉なのだが、たぶん、そのデータは取れないので、なくてよい。

2.販促データ
→値引き、チラシ広告、景品、エンド陳列などの販促状況が分かるデータ
→売上データに入っていれば良いが、そうでない場合ヒモ付けが必要で
 その際、店舗データが必要になるかも

3.IDつきPOSデータ
→2種類ある。顧客にアプローチできるCRMデータと、
 顧客の個人情報が一切抜かれた属性データ。

4.ソーシャルデータ
 SNSなど・・

なお、有償のものも含めた、オープン(な)データ
  (気象庁が出している天気データ、
   流通システム開発センターが出している流通POSデータベースサービス(RDS)、
   JANコード統合商品情報データベース(JICFS/IFDB)等)
は、どの段階でも、ある程度役立つ


*意味のないデータ解析
 たとえば、3.IDつきPOSデータを使い、「50台女性は商品Aを購入する」というデータ
が出たとき、じゃあ50代女性がこのスーパーの顧客に多いから、Aは売れるはず

  ・・・と解釈してしまうかもしれない。

 この場合、Aをチラシに出して特売すると、50代女性はチラシを見てわざわざ
買いに来ているかもしれない。これは2.販促データがないと、わからない。
なので、販促で売れているような場合、IDつきPOSデータだけで判断すると、
意味のない結果が出たり、間違った判断をしたりする。




■データ解析法-どのような分析が出来て

集めるデータによって、分析範囲が異なってくる。

●1.売上データと商品データ

・売上データから、まず、売上傾向とトレンドや季節性について見れる
 (前年より、よい・わるい)
 商品分析に入る前に、全体の売上傾向を見ておく。
 そうでないと、「不況だから売れない」のか「商品力がなくなったから売れない」
 のか判断できないから。

・次に売上商品ごとのランキング、前年期比などをみて、調子いい商品、
 調子悪い商品の全体傾向を知る。
   →ABC分析等も、ここで
 ただし、売上をみるときは、「欠品していないかどうか」や売り場面積も
 確認(意識)しておくこと。
 うれるはずの商品が売れていない→売れすぎて欠品していたから
 ってこともあるので。

 - ここまでは、グラフや表を使った、基本的な分析(記述統計レベル)となる -

・商品ごとのアソシエーションをみるために、バスケット分析をすることもできる

 バスケット分析は、

 ・すべてのバスケット全組み合わせ(A,B,Cを買った人はDを
  買うのような、2種類以上の組み合わせ)を見たい場合には、
  アプリオリというプロトコルを使う。Rで解析できる

 ・組み合わせだけでよければ(Aを買った「バスケット内では」Bも買っている)
  RDBでも量が少なければ見れる。
   自己結合を使い、
   SELECT TBL_A.商品 TBL_B.商品
    FROM 売上テーブル AS TBL_A
    JOIN 売上テーブル AS TBL_B
       on TBL_A.バスケット番号=TBL_B.バスケット番号
   WHERE TBL_A.商品 != TBL_B.商品
  とすると、TBL_AとTBL_Bのバスケット内商品の直積がとられ、全組み合わせが出てくる
  なので、こいつをカウントする。

 ・でも、もっと簡単に商品Aを含んでいるバスケット内には、他に何がある?
  というのを見たいのなら
   SELECT TBL_A.商品
    FROM 売上テーブル AS TBL_A
    JOIN 売上テーブル AS TBL_B
      on TBL_A.バスケット番号=TBL_B.バスケット番号
      AND TBL_B.商品=知りたい商品
   WHERE TBL_A.商品 != 知りたい商品
  で出てくる。


・このほか、コーザルデータ(天候や地域行事)を加えて、
  こういうときは、売れるというのを見ることもできる
  機械学習でもいいけど、まあ、ざっくりと
    アイスクリーム 気温30度以上のとき、そうでないとき
  をわけてグラフ表示・ピボットテーブル(クロス表)してもいい。

・流通システム開発センターのRDSを使うと、比較が出来るかも?


●2.販促データ

・どのような販促を打ったら、効果あったかないかがわかる。
 これも、コーザルデータのときのように
  ある商品に対して
    販促Aを行った、行わない
  をわけてグラフ表示・ピボットテーブル(クロス表)してもいい。

・値下げをしている場合、価格によって、売れ行きがどうかというのが見れる。
  ヒストグラムで見るのが普通かもしれないけど、
  Xを価格、Yを売れた数にして、散布図で見るという手もある。

●3.IDつきPOSデータ

◎IDだけを使う場合、「1.売上データと商品データ」よりも細かい
 商品情報が見れる

  ・デシル分析:購買者を購買金額上位からならべて、ほぼ10等分し、
   各階層で、ある商品をどれくらい買っているか見る。

   顧客をデシルに分けるには、NTILEウィンドウ関数で分けられる

  ・RFM分析:さらに顧客をR(最近買った日)、F(買った回数)、
   M(類型金額)によって、分類し、その各階層で、どの商品
   をどれくらい買っているか見る。
   上記のようにSELECT文でNTILEウィンドウ関数で分けてがんばる!

  ・トライアルリピート
   商品をはじめて買った人(トライアル)、2回目以上買った人(リピート)に
   わけ、どのくらいの人が買っているかを見る。
   リピートを2回にするか、2回「以上」にするかの違いが有り、
    2回の場合は、主に商品力を見たいケース
    2回以上の場合は、棚割りで、棚から削除すべきかどうかの判断
   につかう。
   SELECTにLEADウィンドウ関数(OVER 販売日時)を使うと、次の購買日が
   出せる。それを利用するのかな・・

  ・アソシエーション分析(Aを買った人はBを買っています)
   バスケット分析はバスケット内で判断するが、これは期間内で判断する
   Aを買った人は次の日Bを買っていた場合、バスケット分析ではカウント
   しないが、これはカウントする。
   バスケット分析の「バスケット」を「人」に代えただけだが、
   全部求めると(直積すると)すごいことになるので、普通
   商品Aを買った人は、何を買う?ということで

   SELECT TBL_A.商品
    FROM 売上テーブル AS TBL_A
    JOIN 売上テーブル AS TBL_B
      on TBL_A.顧客ID=TBL_B.顧客ID
      AND TBL_B.商品=知りたい商品
   WHERE TBL_A.商品 != 知りたい商品
  で出てくる。
   
  ・ロイヤリティ?スイッチャー?
    その人が、同じカテゴリーの商品を買う場合、同じ商品を買っているか、
    違う商品を買うことが多いかを出す
   
    SQL的には、知りたい商品のカテゴリーをもとめ、そのカテゴリー全商品
    に対して、各商品の売上合計を求めれば求まるが、

    欠品のために他の商品を買っていることもあるので、注意が要る

◎属性値も含む場合、属性情報を使った販売情報が見れる・・・ことになっている
  Aという商品は、20代女性の購入が多いなど


●4.ソーシャルデータ
 Twitterの情報を加えると、購入していない人の情報までも取得できると
 言われている

 たとえば、Aという商品が売れない場合、TwitterのつぶやきでAという商品
 を解析すると、その商品が売れない理由が分かったりすると「言われている」




■どのくらい経営に貢献するか

●1.売上データと商品データ

 商品の売上状況が分かると、今後どのくらい仕入れたらよいかの予測がつけられる
 とくに、コーザルデータとあわせて、「明日運動会だから、もっと仕入れる」など、
 より精度の高い予測がつけられる。

 さらに、アソシエーション情報が分かると、チラシなどの広告や、販促を行ううえで
 役に立つ。この商品を売りたいから、これも広告に載せておこう、セット販売しよう
 など。とくにリフト率が分かると、これがやりやすい

●2.販促データ

 販促に意味があったのかなかったのか、値下げは無駄だったのか、そうでないのかが
わかる。値下げはむやみにするものではないので、値下げたぶん、売れていないのであれば
値下げすべきでない。

 販促効果があったかなかったかは、リフト率を見れば分かるが、クロス表でも
 まあ、雰囲気はつかめる・・

●3.IDつきPOSデータ

 これは、IDだけを使うのであれば、「1.売上データと商品データ」と同じ
効果が期待できる。

 しかし、属性情報がわかっても、顧客理解はすすむが、経営に資するかどうかは
わからない。
 たとえば、「育毛剤は、30、40代女性が多く購入している」
というデータが出て場合、ご主人のために買っているのだろうなという
想像がつき、顧客理解はすすむ。

 でも、その情報から、どのように販促したらいいのかがわからない。

 個人情報つきの場合には、DMを打つなどの方法もあるのだが、
 そのような情報のない、属性データの場合、どのように販売に
結びつけるか・・・意外と難しい。

●4.ソーシャルデータ
 もっと難しいのが、ソーシャルデータで、これに至っては、
売れない理由はわかっても、では、なにをどうすれば・・・
途方にくれてしまったりする。

 もちろん、お店のTwitterをするという手もあるけど、
それはデータ分析とは関係ない




ということで、実は、IDつきPOSデータや、ソーシャルデータは、
お金がかかる割りに、経営に資するものかどうかは、疑問だったりする。

「1.売上データと商品データ」「2.販促データ」の解析はExcelで
すんでしまうわけで、そうすると、ビッグデータは本当に経営に役立つか・・・
・・・投資しただけ、回収できず損になる・・・

・・っていう夢なわけでした・・

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする