統計モデル その2 確認的因子分析のlavaan、SEMパス図のsemPlot
http://blog.goo.ne.jp/xmldtp/e/67d20f131517b9fb1b5e55963ecb72fa
の続き。授業の「統計モデル」の内容をメモメモ
構成概念とは
構成概念とは、直接観測することはできないけれども、
それを定義することにより観測された現象をうまく説明
できるようになる事柄
確認的因子分析
・測定しようとしている構成概念を定義
・定義に従って項目を作成
・データ収集
・構成概念=因子の確認
・信頼性と妥当性
探索的因子分析
・構成概念を測定していそうな項目
・作成した項目データ調べる
・構成概念=因子がわかってくる
・後付的に定義する
・信頼性と妥当性
因子分析
・変数間のまとまりを見つける方法
・相関の高い変数同士が同じ因子にまとまる
確認的因子分析
・各観測変数がどの因子の影響を受けているかを
仮説としてモデル化する
・適合度で検討
・モデルが識別されている必要がある
結果でてこない→識別されていない
誤差
・誤差=特殊因子+測定誤差
因子負荷量
・因子から受けている影響の大きさ
因子分析と回帰分析
対応がある
カイ2乗検定の結果の見方
Number of observationsのほうを見る
Model test baseline modelではない
→こちらは独立モデル。変数間に関係がないと仮定したもの
CFI:独立モデルにくらべ、どっちがいいか
loglikelihood:対数尤度
対数尤度の2つの差をとって2倍するとカイ2乗値
2*対数尤度+2*自由度=AIC
因子名:方向性をもっている
→わからないのはX
因子の向きの影響
カイ二乗検定
・きむ仮説は「モデルはデータに適合されている」
識別(identification)
・連立方程式の解:3つにわかれる
丁度識別:解ける
識別不能:すべてを満たすものはない
識別不定:
識別不能の方程式
どちらが適切そうか?
不適切さの程度を最小にするような組を見つける
→最小二乗法
不適切さの程度が適合度と同等
丁度識別の確認的因子分析モデル
答えは1組
因子の分散=1とする
適切さでもとめる
識別不定
求まらない
SEM(共分散構造分析)のしくみ
・標本データから計算される観測変数間の共分散行列S
・パラメータで表現された観測変数間の共分散行列Σ
・sとΣの差を小さくするパラメータの推定
(重複する部分はいれないでOK)
4つの場合
方程式の本数>パラメータ数
なので、識別不能
2つの場合
方程式の本数3>パラメータ数4
なので、解けない(識別不定)
誤差の分散
S :データがあれば求まる
Σ:モデルがあれば求まる
S=Σでとく
なぜ因子の分散=1、誤差からの係数=1としたか
→逆に1にしなかったとしたら・・・
方程式を立ててとこうとすると・・・・
パラメータが増えて、方程式のほうがすくなくなる
ので、解けない
→そこで、1にした
・・・って、していいの?
因子負荷量のあるところ、因子の分散が出る
因子は単位がない
そこで、因子の分散1
確認的因子分析
・V(f)を1に固定
・因子負荷量の1つを固定する
らばーんは、後者:1においたところ点線
→そこから標準化
適合度と自由度
・連立方程式に良く当てはまる解であるほど、
適合度は高くなる
・丁度識別のとき:完全な適合になる
→適合度は検討できない
・識別不能のとき:適合度を検討できる
・識別不定のとき:適合度は検討できない
自由度
・自由度=連立方程式の本数-パラメータ数
・自由度0:丁度識別
・自由度正:識別不能
・自由度負:識別不定
統計モデル=データ
適合度はモデルとデータの適合の度合い
モデルを変更すると
Sは変わらない(データは変わらない・方程式の右辺は変わらない)
Σは変わる(モデルは変わる・連立方程式の左辺は変わる)
モデルを変更すると、SとΣが近くなる可能性があるので、モデル比較を行う
モデル比較
・複数のモデルの中で、もっとも良いモデルは何か
倹約的なモデル
・SとΣを近づける
→パラメータをいっぱい入れればいい
→そのデータにしか当てはまらなくなる
→頑健なモデル:より少ないパラメータで
・RMSEA,AIC,BICは倹約的な考え方を含んでいる
SEMによる単回帰分析
・単回帰モデルのΣ(共分散構造)
→丁度識別で解ける
・切片はどこにいったの?
SEMで切片を推定するには、
平均・共分散構造分析を使わないとできない
因子分析:共通性→回帰分析:決定係数
誤差の分散=Variance
観測変数の分散=共通性+独自性=1
Rで実行
library(lavaan)
model1<-'rating~complaints'
fit1<-sem(model1,data=attitude)
summary(fit1,standardized=TRUE,fit.measures=TRUE,rsquare=TRUE)
SEMによる重回帰分析
Rで実行
modelがちがう
ほか同じ
3つ観測変数があって、共分散構造分析
a1,a2,V(e)
飽和モデル:自由度0
確認的因子分析、単回帰分析、重回帰分析は
飽和モデル
良いモデル
・適合度がいい場合
・決定係数がいい場合
決定係数;説明できない部分がどれくらい残るか
適合度はいいが、決定係数小さい
→モデルで説明できる。よくある
決定係数がいいが、適合がわるい
→あまりないけど
R
lower対角行列の下だけ入ってる