統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(25)

2016-11-18 12:35:47 | 日記・エッセイ・コラム
今回は、
「すぐに役立つ統計のコツ」第8章(139ページ)の「コックス比例ハザード・モデル」をご紹介しましょう。
前回までは、本書の例題を使って「R」での実行方法をご紹介して来ましたが、今回は、「R」のサンプルを使って見ましょう。
library(survival)のデータ"lung"を使って、Cox をやって見ましょう。
次のコマンドで"lung"データを読み込んで下さい.
「R version 3.2.3」の場合ですので、version で違うかも知れません。
 
library(survival)
data(lung)
head(lung) #データの確認です
 
 #説明変数(sex)で生存分析をやってみましょう
surv.fit <- survfit(Surv(time,status) ~ sex, data=lung)
summary(surv.fit)
 
 #Coxをやってみましょう
cox.fit <- coxph(Surv(time, status) ~ age +sex +ph.ecog +ph.karno +pat.karno , data=lung)
summary(cox.fit)
 
いかがですか・・・、
 
「すぐに役立つ統計のコツ」第8章(139ページ)を参考に出力結果を見て下さい。
 
生存曲線は、
 plot(surv.fit)
 
で図1の様に描くことが出来ます。
図1 生存曲線

また、
cox.fit の生存曲線は、
plot(survfit(cox.fit))
 
で図2の様に描くことが出来ます。
 
図2 cox.fit の生存曲線

「すぐに役立つ統計のコツ」(オーム社)は Excelとフリーオンラインソフトを使ったすぐに役立つ統計のコツ(方法)をご紹介しています。Excelで煩雑な分析はフリーオンラインソフトを積極的に利用してみましょう。
しかし、
自己責任ですので例題などを実行し間違いのないことを確かめて使用しましょう。
本書で紹介したフリーオンラインソフトは「R」がベースとなっています。データ解析環境「R」はコマンド操作だし、ライブラリーのインストールも最初は分かり難く面倒かも知れません。
だけど、
なれれば Excelと同じように使いこなせるものです。今回で一応、「すぐに役立つ統計のコツ」(オーム社)のご紹介は終わります。
本書の立ち読みは以下にアクセスしてみて下さい。
 
http://www.e-hon.ne.jp/bec/SA/Detail?refShinCode=0100000000000033365048&Action_id=121&Sza_id=B0
 
引き続き、
落穂ひろい的に気づいた事をご紹介したいと思っています。
 
情報統計研究所はここから!
 
 
 
 
 

統計のコツのこつ(24)

2016-11-07 11:32:48 | 日記・エッセイ・コラム
 
前回に引き続き生存分析のお話です。
それでは、「すぐに役立つ統計のコツ」第8章(134ページ)を開いて下さい。
「K-M法による Logrank test」を「R」で行ってみましょう。
前回のデータであれば、次のコマンド(関数)だけでOKです。
 
***
survdiff(Surv(観察期間, イベント発生 == 1)~ グループ, data=dat)

出力結果:第8章(136ページ参照)
> survdiff(Surv(観察期間, イベント発生 == 1)~ グループ, data=dat)
Call:
survdiff(formula = Surv(観察期間, イベント発生 == 1) ~ グループ,
    data = dat)
            N Observed Expected (O-E)^2/E (O-E)^2/V
グループ=A 10        3     6.13      1.60      4.03
グループ=B 11        8     4.87      2.02      4.03
 Chisq= 4  on 1 degrees of freedom, p= 0.0448
***
 
この結果は、「すぐに役立つ統計のコツ」第8章(137ページ)を見て下さい。
 
次回は、「コックス比例ハザード・モデル」をご紹介します。
 
情報統計研究所はここから!
 

統計のコツのこつ(23)

2016-11-01 18:31:03 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)の内容に沿って、チョットしたコツを書いています。
今回は、最終章(第8章)「生存時間」に関するお話です。
それでは、「すぐに役立つ統計のコツ」第8章(130ページ)を開いて下さい。
本書の例題(データ)は、情報統計研究所(HP)からダウンロード出来ますのでご利用下さい。
 

第8章は、「イベントヒストリー分析」となっています。医学医療関連では生存時間の分析(解析)と呼ばれて言いますが、
生産現場での、例えば「故障/非故障」などの信頼性分析(信頼性工学)で用いられています。
工場の生産現場で「生存時間」と言うのはしっくりきませんし、医学医療の現場で「故障」と言うのも違和感があります。
しかし、
あるイベントに対する分析であれば、「生存」であっても「故障」であっても、イベントと言えますのでしっくりくると思われます。
本書ではエクセルによる方法をご紹介していますが、結構、手間で少々うんざりです。
だって、
商用統計ソフトを使えば、難なく生存曲線などを描いてくれますから便利ですよね!
しかし、
その分析過程を知りたいなら、本書のエクセル関数を手入力してみて下さい。
高価な商用統計ソフトはチョット・・・と思われるなら、これからご紹介するデータ解析環境「R」がお勧めです。
それでは、
「R」による方法をご紹介しましょう。
 
(1)カプラン・マイヤー法(Kaplan-Meier法:K-M法)について。
この方法は小標本(例えば50例以下)に適しており、医学医療分野でよく用いられています。本書では、エクセルでの方法を紹介していますが、正直やっかいです。R」だと、survfit()関数だけで K-M 法をやってくれます。
では、
その方法を書きに記しておきましょう。
まずは、
例題を情報統計研究所(HP)からダウンロード「Excel_Sample(3).xlsx」しておいて下さい。
そして、
「Excel_Sample(3).xlsx」の Sheet名「表8.1」を開き「A1:C22」を「選択→コピー」し用いて下さい。
***
dat<- read.delim("clipboard", haeder=T)
head(dat)
 # ここから下は「Rエディタに書くと良いでしょう」
 
library(survival)
fit<- survfit(Surv(観察期間, イベント発生 == 1)~ グループ, data=dat)
summary(fit)
plot(fit)
 
# 日本語に対応していなかったり、英文(アルファベット)で表記したければ次により列名を変えられます。
# names(dat)=c("Time", "Status", "Group")
 
出力結果:
> summary(fit)
Call: survfit(formula = Surv(観察期間, イベント発生 == 1) ~ グループ,
    data = dat)
                グループ=A
 time n.risk n.event survival std.err lower 95% CI upper 95% CI
    2      9       1    0.889   0.105        0.706            1
    7      5       1    0.711   0.180        0.433            1
   13      3       1    0.474   0.228        0.185            1
                グループ=B
 time n.risk n.event survival std.err lower 95% CI upper 95% CI
    1     11       1    0.909  0.0867       0.7541        1.000
    2     10       1    0.818  0.1163       0.6192        1.000
    3      9       1    0.727  0.1343       0.5064        1.000
    5      7       1    0.623  0.1500       0.3890        0.999
    6      6       1    0.519  0.1569       0.2874        0.939
    8      4       1    0.390  0.1628       0.1718        0.884
    9      3       1    0.260  0.1517       0.0827        0.816
   10      2       1    0.130  0.1191       0.0215        0.784
 
図1:K-M法による生存曲線(本書の138ページ参照)
 

次回も、引き続き最終章(第8章)をご紹介します。
 
情報統計研究所はここから!