統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計技術 第Ⅲ部:第3章-4.1 Regression Trees(回帰木)

2022-07-23 13:45:48 | 日記・エッセイ・コラム

統計技術 第Ⅲ部 Free Online Caluclator (例題集)
第3章-4.1:Regression Trees(回帰木):Wassa.net による法

ここで紹介する樹木モデルは、目的(従属)変数が連続量であれば回帰木(Regression Trees)とか、名義尺度(0,1)であれば「分類木(Classification tree)」とか、「決定木(Decision tree)」と言われるもので、非線形回帰モデルや非線形判別分析の範疇に入る方法である.
主に、データマイニングなどの意思決定の1つの手段としてよく知られている.

ここでは統計技術的に"Free Online Calculator"での方法を紹介する.
これは既に、
統計技術 第Ⅰ部:第14章-1 樹木モデル」で「R」での方法を紹介しているので参考にされたい.
   http://toukei.sblo.jp/article/188432693.html

ここで紹介する「wessa.net」では、「Regression Software→Regression Tree」が用意されているが、残念ながら分類過程や回帰過程の計算が定かでないので、簡単に、その方法を例題の説明(独立)変数が連続量についてのみとし、名義尺度の変数については、次回の「Free Online Calculator」(DATAtab)で紹介する。

例題は、
「R」のMASSパッケージ内の[birthwt]を使った"低出生体重児と変数の関係"を用いる.本例題は、上記URL(統計技術 第Ⅰ部:第14章-1 樹木モデル)で紹介しているが、例題のデータは情報統計研究所の下記 URLにまとめている「出産児体重」ダウンロードして利用すると便利だと思う.
情報統計研究所(データベース)
http://kstat.sakura.ne.jp/dbase/dbase.html

(1)情報統計研究所からダウンロードした「出産児体重」の青色列名のB列~D列のデータ(数値)のみをすべて選択・コピーし使用する(列名はコピーしない).

「Wessa.net」による方法.
---------------------------------------------------------
「Wessa.net」のトップページから、

Regression Software

Regression Trees

Data X の既存のデータを右クリック→すべて選択→[Delete]キーで削除

上記(1)でコピーしたデータを右クリックで貼り付け(ペースト)

図1 Excel から貼り付けたデータ



図2 列名の入力


Categorization [ none ]

[ Compute ]をクリック

出力結果:
図3 分類木(Classification tree)

「出産児体重」の重要な因子として、lwt(母の体重)が表示された.
図3から、lwt<=105(n=37)、lwt>105(n=152)で・・、p-value=0.04(有意)である.

ここでのp-valueは「R」のlibrary(coin)の「independence_test」で求めることができる.
------------------------------------------
「R]
dat<- read.delim("clipboard", header=T) # Excel から例題のデータ(列名を含む)を読み込む.
head(dat)
library(coin) # 事前にインストールしておく.
independence_test(age+ lwt~ low, data=dat)
------------------------------------------
出力結果:
Asymptotic General Independence Test

data:  age, lwt by low
maxT = 2.3258, p-value = 0.0394 # 標準化された線形に基づく検定統計量
alternative hypothesis: two.sided
------------------------------------------
independence_test() は任意の尺度で測定された2群の変数の独立性を検定する関数である.

注釈;
名義尺度(0、1)の説明(独立)変数については、次回に別の「Free Online Calculator 」(DATAtab)で紹介する.

次回に続く!