具体的には「データウエアハウス」「データマート」「OLAP」「データマイニング」について取り上げます。
【データウエアハウス】
データウエアハウスとは「データの倉庫(ウエアハウス)」と訳され、日々蓄積されたデータを整備することにより意思決定に活用可能なデータベース環境を構築することといえます。
(データウエアハウスの4つの定義)
①目的別(サブジェクト指向)
利用者の目的や用途に合った見え方を提供する
② 統合化
情報が全社で横断的に統合化されている必要がある
③時系列
情報はデータの発生順(時系列)で長期間保管する
④非更新
蓄積された情報は履歴の意味で非更新にする必要がある
【データマート】
データウエアハウスのデータは莫大な量であり、すべてのユーザがそのデータを必要としているわけではありません。
そこでデータウエアハウスから利用者にとって必要なもののみ抽出できるデータマートが利用されるようになりました。
【OLAP(Online Analytical Processing)】
OLAPとは「多次元データ分析」と訳され、多次元データベースからさまざまな切り口でデータ集計が出来ます。
データウェアハウスから仮説検証を行うソフトウエアです。
(OLAPの機能)
①スライシング
多次元データベースを輪切りして、同方向からデータ検索や分析を行う
②ダイシング
多次元データベースをサイコロに見立て多方面からデータ検索や分析を行う
③ドリリング
集計されたデータを展開しながら、詳細にデータ検索や分析を行う
【データマイニング】
データマイニングとは「データの採掘」という意味で、大量のデータの中にある因果関係などを発見します。
(データマイニング手法)
①マーケットバスケット分析
POS情報からアイテムが一緒に買われるグループを見つけ出す手法
②記憶ベース推論
将来事象を予測するために既知の事象や事例をモデルとして使用する手法
③クラスタ分析
複数の数量変数について互いに似ているデータを見出すようなモデルを構築する手法
④リンク分析
データ間の関係に従って関係性の中のパターンに基づいたモデルを構築する手法
⑤ニューラルネットワーク
脳神経細胞(ニューロン)の情報処理のメカニズムをモデルとした手法
⑥遺伝子アルゴリズム
予測関数を記述する最適な係数を遺伝子のメカニズムを用いて求める手法
(統計的手法)
①t検定
カテゴリー変数の2つの水準の間で、数量変数の平均値を取り比較します。
数量変数とカテゴリー変数(2つの場合)の組み合わせに用いられます。
もっと簡単にいえば「2つの条件の間に差があるかどうかを検定すること」です。
②二項検定
2通りしか起こらない事象の観測数に対し「それらの事象の母集団における頻度は1:1である」という帰無仮説を検定することです。
③F検定
分散が等しいかどうかを検定するものです。
数量変数とカテゴリー変数(3つ以上)の組み合わせに用いられます。
④χ2(カイ二乗)検定
2つのカテゴリー変数の間の独立性を検定します。
期待値と実際の分布がどの程度はなれているか(比率の差)を算出します。
⑤多重比較検定
3つ以上の平均がある場合に2平均ずつを対にした比較を多数回行う検定方法です。
⑥クラスタ分析
複数の数量変数について似た特徴を持つデータをグルーピングする手法です。
顧客データを分析して、セグメンテーションする場合に使用されます。
⑦主成分分析
複数変数のデータのばらつき傾向から、少数の合成された新たな変数(主成分)を求める手法 です。
⑧回帰分析
2つ以上の説明変数をもとに、ある重要な変数(目的変数)を予測推定する分析手法です。
説明変数が1つの場合を単回帰分析(simple regression analysis)、2つ以上の場合を重回帰分析(multiple regression anaysis)といいます。
⑨ゴールシーク分析
目標値を数式から得るために、その数式に代入すべき値を求める分析手法です。
⑩シミュレーション
複雑なシステムや現象をモデル化してコンピュータに計算させた結果を使って解析する手法です。
⑪What - if 分析
スプレッドシートなどを用いて、さまざまな値を考えうる限り変化させて結果を把握する分析方法です。
今回でデータベースについての整理は終了です。
次回から情報セキュリティについて整理します。
最新の画像もっと見る
最近の「Web研修」カテゴリーもっと見る
最近の記事
カテゴリー
バックナンバー
2004年
人気記事