統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

新・医学と統計(25)

2019-01-29 13:00:31 | 日記・エッセイ・コラム
JASPでベイズ統計のほんの一端をご紹介しましたが、今回の探索的因子分析(Exploratory Factor Analysis)で終わりとなります。
このブログでは、JASPの使用経験をチョットご紹介したに過ぎませんので、実際の分析では統計学的な方法にのっとり利用して下さい。
それでは、
前回のデータ「PCAdata.csv」での探索的因子分析の手順とその結果を示しておきます。
 
JASP→File→Open→Computer→Browse(保存したホルダー)

PCAdata.csv を開く

すべての変数の尺度をScaleにする。

Facter→Exploratory Factor Analysis

図1 各種設定(Rotation:none、Number of Facter[3]) 
 
 
図2 回転なし(Rotation:none)での因子負荷量 
 
 
図2は因子数 [3]の時の負荷量で、
第1因子(PC1)のプラス負荷量[Ba, Eo, WBC] とマイナス負荷量[Cmin, IgE] にうまく分かれいるが、第3因子(PC3)  はSt のみです。そこで・・・、

図3 スクリープロット(Scree plot) を選択
 
 
Output options → ☑Scree plot としてスクリープロットを見てみよう。

図4 因子数[3]の時のスクリープロット(Scree plot)
 
このData の Scree plot は Components[3] から[4] の傾斜が平坦であるところから、因子数は[2]で良さそうです。そこで・・・、

図5 因子数[2]で回転なし(Rotatio:none)の因子負荷量
 
各変数は第1因子と第2因子に分かれており、因子の意義付けが出来そうです。
因子の解釈には分析者の知識に依存し、説得できるだけの根拠が求められます。
ここで、
「Uniquenesis」は独自性とか独自因子と言われています。
また、
回転(Rotatio:varimax)にすると因子負荷量の分類がうまくゆきませんので、ここでのデータでは回転なし(Rotatio:none)が良さそうです。
 
実際のデータでの因子分析では、因子数や回転など試行錯誤が伴います。JASPでは基本的な方法を簡単に色々と試せますが、専用ソフトには及びません。詳しい因子分析にはデータ解析環境「R]などの利用をお勧めします。
 
以上でJASPの使用経験のご紹介を終わります。
 
以後の投稿は未定ですが、例えば、
ニュースになった統計問題を取り上げてみようかと思ったりしています。
 
それでは又!!
 

新・医学と統計(24)

2019-01-24 13:22:34 | 日記・エッセイ・コラム
JASPでベイズ統計のほんの一端を経験され如何だったでしょうか。
まだ、
馴染めないかもしれませんが、いわゆる母集団仮説検定のp値を超えてベイズ統計の時代が来るかも知れません・・?!
それはさておき、
JASPのご紹介も最後の「Factor」を残すのみとなりました。
では、いつもの様に、
JASPを立ち上げ「Factor」を経験して見ましょう。
 
「Factor」の簡単な例題として下記URLより、
 
「PCAdata.csv」をダウンロードしてお使いください。
 
注意:
*****
Windows10のブラウザ(MicrosoftEdge)で「.csv」ファイルがダウンロードできないようであれば、次の方法を試して下さい。
設定[・・・]→閲覧データのクリアー[クリアーするデータの選択]→
☑Cookieと保存済みのWebサイトデータ、☑キャッシュされたデータとファイル→クリア
 
それでもダメなときは、
設定[・・・]→Internet Explorerで開く
 
・・としてやってみて下さい。
 
「Google / Crome」は大丈夫かと思います。
*****
 
本ファイルの内容は、「すぐに役立つ統計のコツ」(オーム社刊、金関正弘 著)の主成分分析(124ページ)と同じ内容です。
では、
いつものようにJASPを実行します。
 
JASP→File→Open→Computer→Browse(保存したホルダー)

PCAdata.csv を開く

すべての変数の尺度をScaleにする。
図1 変数尺度の確認 
 
 

Facter→Principal Compornent Analysis

図2 変数の選択 
 
 
 

図3 回転法・ファクター数の設定 
 
ここでは、回転法を[varimax]、因子数を[2]とします。

図4 主成分分析の結果 
 
「すぐに役立つ統計のコツ」(127ページ)の結果とほぼ一致します。

図5 Optionの設定 
 
 
赤矢印の☑Path diagram にチェックを入れるてみましょう。

図6 Path diagram の表示 
 
 
赤と緑の矢印は主成分負荷量との関係(正と負)の強さを線の太さで表しています。
主成分散布図でデータの特徴を視覚的に捉えるには「すぐに役立つ統計のコツ」(128ページ)のフリーオンラインソフト(下記URL)の利用も検討して下さい。
https://www.wessa.net/stat.wasp
 
次回に続く!
 
お知らせ!!
*****
情報統計研究所は全く初心者のための統計教室を開催します。
参照先:
初めての統計-blog
basicstat.sblo.jp/
 
 

新・医学と統計(23)

2019-01-17 13:03:53 | 日記・エッセイ・コラム
前回の Log-linear Regression を次の「R」プログラムで実行してみましょう。
 
前回用いた、図1の Excel ファイル「Frequency.csv」 の 「A1:C5」を選択しグリップボードにコピーしておき、以下を実行します。
 
***
# R console に記入し実行
dat<- read.delim("clipboard", header=T) 
 
# 以下、Rエディタに記入し実行
dat
library(MASS)
# (1)相互作用項を含むモデルの予測
TableLM1<-loglm(Count~ Gender + TC + Gender*TC, data=dat)
TableLM1
fitted(TableLM1)
 
# (2)相互作用項を含まないモデルの予測
TableLM2<-loglm(Count~ Gender + TC, data=dat)
TableLM2
fitted(TableLM2)
 
出力結果:
図3 予測の結果 
 
 
以上から、相互作用項を含むモデルの当てはめの良さがわかる。
なお、
「関数 loglin」を用いるときは度数による分割表を用います。
 
次回に続く!
 
情報統計研究所をご気軽にご利用くださいませ。
 
情報統計研究所刊:「すぐに役立つ統計のコツ」立読み

https://e-hon.cloudpages.jp/viewer/asp/9784_274_218163
 
 

 
 
 

新・医学と統計(22)

2019-01-13 12:41:02 | 日記・エッセイ・コラム
「FrequenciesのBayesian Log-linear Regression」について、簡単にその方法をご紹介しておきましょう。
「Log-linear Regression」(ログリニア回帰分析)は、分割表の度数を対数変換し1次式のモデルから、各度数の影響を見るもので、各属性の主効果およびそれらの交互作用で説明するモデリング法であり、一般の回帰分析や分散分析と似ています。
なお、交互作用がない対数線形モデルを独立モデル(加法モデル)、交互作用を含めたモデルを飽和モデルと言います。
 
試してみましょう。
JASPを立ち上げたなら、
File→[ Data Library ] をクリック → 5.Frequencies→Death Penalty→ダブルクリック
 
・・とすれば、下記の結果を見ることが出来ます。
***
Death Penalty: Bayesian Log-linear Regression
Description:
This data set, "Death Penalty", provides court decisions on a death penalty (i.e., yes or no) split by race of a defendant (i.e., White or Black) and
 race of the victim (i.e., White or Black).
Variables:
•RaceVictim - Race of the victim (white, black). :被害者の人種
•RaceDefendant - Race of the defendant (white, black). :被告の人種
•Count - The number of trials belonging to the combination of the categories. :件数
•Death - The court decision on the death penalty (yes = death penalty, no = no deatch penalty). :判決
***
 
チョットややこしいと思われるなら、
前回の「新・医学と統計(18)」での例題(Frequency.csv)を用い、次の要領でやってみて下さい。
File→Frequency.csv(図1)
図1 Frequency.csv 
 
 

Frequencies→「Bayesian Log-linear Regression」

Countの変数名をScaleに変更

Counts(optional):Count
Factor:Gender、TC

図2 出力結果(1) 
 
 
デフォルトでは、最良のモデルのみを表示しており、ベイズ因子の最もパフォーマンスの高いモデルは「1」のBFとなります。
***
 
ここで、通常の対数線形モデルは、
Frequencies→「Log-linear Regression」で求められます。
 
実行結果のみを表示すると図3 のようになります。
 
図3 出力結果(2) 
 
図3 の結果を見るとEstimate(係数)の p値は<0.05ですが、ただし対数線形モデルでは残差を確認する必要があります。
Deviance と Redisual Devience を見ると Gender や TC 単独では当てはめが悪いことが分かります。
 
次回は、
このモデルに当てはめた時の予測をデータ解析環境「R」でやってみましょう。
 
次回に続く!
 
情報統計研究所をご気軽にご利用くださいませ。
 
情報統計研究所刊:「すぐに役立つ統計のコツ」立読み

https://e-hon.cloudpages.jp/viewer/asp/9784_274_218163