統計技術 第Ⅲ部 Free Online Caluclator (例題集)
第3章-4.2:Regression Trees(回帰木):DATA tab による法
前回からの続き!
下記URL(DATAtab)にアクセスしてみよう.
https://datatab.net/statistics-calculator/decision-tree
例題は、
「R」のMASSパッケージ内の[birthwt]を使った "低出生体重児と変数の関係" を用いる.
本例題は、「統計技術 第Ⅰ部:第14章-1 樹木モデル」を参考に試されたい.なお、
データは情報統計研究所の下記 URLにまとめている「出産児体重」ダウンロードして利用すると便利である.
http://kstat.sakura.ne.jp/dbase/dbase.html
● 「Free Online Calculator 」(DATAtab)による方法.
このDATAtabでは、名義尺度の従属変数と2つ以上の独立変数を選択するとDecision tree の作成と CHAID(カイ二乗検定)の計算結果を知ることができる.しかし、
連続量での回帰木(Regression tree)は対象外である.
それでは、上記のことを留意のうえでやってみよう.
--------------------------------------------------------
情報統計研究所からダウンロードした「出産児体重」の青色列名部分のみをすべて選択・コピーし
新規にExcelを作成しペーストし、任意のホルダーに任意の名前(例えば、Decision.xlsx)を付けて保存しておく.
図1 「DATAtab」の入力画面
● Cleat Table(赤矢印)をクリックしてTableをクリアー
↓
● Inport(赤矢印)をクリック
↓
図2 「Import」の破線枠内に任意のホルダーに保存した「Decision.xlsx」をスクロース&ドロップさせる.
図3 読み込んだExcel file(Decision.xlsx)のデータ
正しく読み込まれているか・・、列名等を確認する.
変数の形式を指定する(nominal:名義、metric:量的、ordinal:順序).
↓
図4 Dependent Variable の選択
lowを選択を選択◎
↓
図5 Independent Variable の選択
race, smoke, ht, ui の各丸〇に✓チェックを入れる.
↓
ディスプレイの画面を要約すると図6のようになった(Chi-sqの値は連続補正なし).
図6-1 CHAID decision tree(1)
上図から、
低出生体重児(low)は、ptl=早産の数(回数:0回~3回)の出現度数(比率)に有意な差がみられた(p=0.001).
まとめると、次のカイ自乗検定となる.
---------------------------------
............ptl[1]...ptl[0]...ptl[2]...ptl[3]
low[1].....16.........41......2........ 0
low[0].......8.......118..... 3.........1
---------------------------------
Chi-sq=16.864, p=0.0007538, df=3
以下、同じように、
図6-2 CHAID decision tree(2)
上図から、
低出生体重児(low)→早産の数(ptl)→喫煙(smoke:0=なし、1=あり)では、有意差を認めない(p=0.143).
以下、同じように、
図6-3 CHAID decision tree(3)
上図から、
人種(race:1=白人、2=黒人、3=その他)の関係は、「Chi-sq=5.79, p=0.05531, df=2」で積極的に有意とは言えない.以下、模式図は省略するが、分類木から喫煙(smoke)についても、次のように解釈される.
-----------------------------------------------------------------
..................................smoke[0]......smoke[1].......chi-sq(p-value)
low[1]&ptl[0]&race[1].......4例.............11例...........4.43(p=0.035)
low[0]&ptl[0]&race[1].....38例.............29例........喫煙ありの比率が高い
-----------------------------------------------------------------
..................................ui[1]......ui[0].......chi-sq(p-value)
low[1]&ptl[0]&race[3].....5例.......12例.......4.37(p=0.036)
low[0]&ptl[0]&race[3]...12例........35例....子宮過敏性ありの比率が高い
-----------------------------------------------------------------
ここで、low=体重(目的変数)、age=母の年齢、lwt=母の体重、race=人種(1=白人、2=黒人、3=その他)、smoke=喫煙(0=なし)、ptl=早産の数(回数)、ht=高血圧(0=なし)、ui=子宮過敏症(0=なし)
・・・である.