統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計技術 第Ⅲ部:第3章-4.2(続き)

2022-07-29 10:57:22 | 日記・エッセイ・コラム

統計技術 第Ⅲ部 Free Online Caluclator (例題集)
第3章-4.2:Regression Trees(回帰木):DATA tab による法

前回からの続き!

下記URL(DATAtab)にアクセスしてみよう.
 https://datatab.net/statistics-calculator/decision-tree

例題は、
「R」のMASSパッケージ内の[birthwt]を使った "低出生体重児と変数の関係" を用いる.
本例題は、「統計技術 第Ⅰ部:第14章-1 樹木モデル」を参考に試されたい.なお、
データは情報統計研究所の下記 URLにまとめている「出産児体重」ダウンロードして利用すると便利である.
 http://kstat.sakura.ne.jp/dbase/dbase.html

● 「Free Online Calculator 」(DATAtab)による方法.
このDATAtabでは、名義尺度の従属変数と2つ以上の独立変数を選択するとDecision tree の作成と CHAID(カイ二乗検定)の計算結果を知ることができる.しかし、
連続量での回帰木(Regression tree)は対象外である.

それでは、上記のことを留意のうえでやってみよう.
--------------------------------------------------------
情報統計研究所からダウンロードした「出産児体重」の青色列名部分のみをすべて選択・コピーし
新規にExcelを作成しペーストし、任意のホルダーに任意の名前(例えば、Decision.xlsx)を付けて保存しておく.

図1 「DATAtab」の入力画面

● Cleat Table(赤矢印)をクリックしてTableをクリアー

● Inport(赤矢印)をクリック

図2 「Import」の破線枠内に任意のホルダーに保存した「Decision.xlsx」をスクロース&ドロップさせる.

図3 読み込んだExcel file(Decision.xlsx)のデータ


正しく読み込まれているか・・、列名等を確認する.
変数の形式を指定する(nominal:名義、metric:量的、ordinal:順序).

図4 Dependent Variable の選択

lowを選択を選択◎

図5 Independent Variable の選択

 race, smoke, ht, ui の各丸〇に✓チェックを入れる.

ディスプレイの画面を要約すると図6のようになった(Chi-sqの値は連続補正なし).

図6-1 CHAID decision tree(1)

上図から、
低出生体重児(low)は、ptl=早産の数(回数:0回~3回)の出現度数(比率)に有意な差がみられた(p=0.001).
まとめると、次のカイ自乗検定となる.
---------------------------------
............ptl[1]...ptl[0]...ptl[2]...ptl[3]
low[1].....16.........41......2........ 0
low[0].......8.......118..... 3.........1
---------------------------------
Chi-sq=16.864, p=0.0007538, df=3

以下、同じように、

図6-2 CHAID decision tree(2)


上図から、
低出生体重児(low)→早産の数(ptl)→喫煙(smoke:0=なし、1=あり)では、有意差を認めない(p=0.143).

以下、同じように、

図6-3 CHAID decision tree(3)

上図から、
人種(race:1=白人、2=黒人、3=その他)の関係は、「Chi-sq=5.79, p=0.05531, df=2」で積極的に有意とは言えない.以下、模式図は省略するが、分類木から喫煙(smoke)についても、次のように解釈される.

-----------------------------------------------------------------
..................................smoke[0]......smoke[1].......chi-sq(p-value) 
low[1]&ptl[0]&race[1].......4例.............11例...........4.43(p=0.035)
low[0]&ptl[0]&race[1].....38例.............29例........喫煙ありの比率が高い
-----------------------------------------------------------------
..................................ui[1]......ui[0].......chi-sq(p-value)
low[1]&ptl[0]&race[3].....5例.......12例.......4.37(p=0.036)
low[0]&ptl[0]&race[3]...12例........35例....子宮過敏性ありの比率が高い
-----------------------------------------------------------------

ここで、low=体重(目的変数)、age=母の年齢、lwt=母の体重、race=人種(1=白人、2=黒人、3=その他)、smoke=喫煙(0=なし)、ptl=早産の数(回数)、ht=高血圧(0=なし)、ui=子宮過敏症(0=なし)
・・・である.