ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

共分散構造分析

2013-09-18 23:17:28 | トピックス
平成25年度筑波大学重点公開講座「統計的解析によるビジネスデータの高度活用」
の第3回尾崎先生による「共分散構造分析」を昨日(9月17日)聞いてきたので
メモメモ




・理論と応用をまぜまぜしながら解説

「入門共分散構造分析の実際」より
・パス図
  四角で囲まれているもの→観測変数:データ
  丸く囲まれているもの→因子(潜在変数):まとめたもの
  Eと書かれているもの→誤差
  単方向のやじるし→回帰

四角をそのままみると、いっぱいあって、煩雑
 →いくつかをひとつにまとめ:見通しよくする

2つのフェーズ
  因子を導出するフェーズ:因子分析
  関係を調べるフェーズ:パス解析

共分散構造分析「入門編」
  中学一年と高校1年の知能の関係
   ・知能を抽出する
   ・知能の間の回帰分析

共分散構造分析
・潜在変数間のパス解析(因子の間の回帰分析)
・因子分析と回帰分析を同時に行う
  →モデルの適切さを調べることが可能
    →立てた仮説が正しいか:演繹

統計学の専門家の視点
 観測変数間の共分散行列をデータとモデルの
 両方で表現して両者が近づくようなパラメータ
 を推定する方法

共分散構造分析が適用されるデータ
  心理学・社会学
    因子分析:知能から発展
  量的データ
  質的データ

本日の解説
  確認的因子分析・パス解析・潜在変数間のパス解析
  今日分散構造分析にかかわる理論的知識
  探索的因子分析については、時間の関係で割愛
   因子分析:2つある
     探索的因子分析:普通因子分析はこっち
     確認的因子分析

因子分析とは
・(観測されている)変数間のまとまり(因子:潜在変数)
  を見つけるための統計手法
  →相関の高い変数同士が同じ因子にまとまる
  因子分析をみて、まとまり方

確認的因子分析
・各観測変数がどの因子の影響を受けているかを
 仮説としてモデル化する

 モデルの適切さは適合度という指標で検討される
   →今日分散構造分析の枠組み

 探索的因子分析:
   観測変数と因子の対応がついていない場合

・観測変数のうち、因子で説明されない部分が誤差である
  文系因子
  理系因子
   因子間のやじるし:相関
  いろんなモデルが作れる
  →制約を課さないと解が求められない

  一番良いモデルは何か?→適合度指標
   構造方程式モデル:SEM
  当てはまりが悪いモデル:自分勝手なこと言っている

  指標:GFI,AGFI,AICなど

・指標
 2つに分かれる:絶対的な指標と相対的な指標
 絶対的な指標:GFI,AGFI,RMSEA・・・
   かい2乗のp値:大きいほうがいい(0.05以上)
     →SEMでは棄却されると都合悪い
   いまは、RMSEAが良く使われる
 相対的な指標:AIC,BIC

・因子負荷量
  因子分析で一番重要なアウトプット
  観測変数が因子から受けている影響の大きさを
  数字で表したもの
   標準化を行って-1~1の範囲で表現

 回帰分析における説明変数(独立変数)
 が因子になっている場合の回帰係数

・因子間相関
  因子と因子の間の相関係数
  因子得点間の相関
 単回帰分析と同じ:1つの→
 重回帰分析と同じ:2つの→

 共通性:因子で説明できる部分→R2
 独立性:説明できない部分

探索的因子分析
 すべてからすべてに→がひかれている
分析例
 価値指向性尺度
 逆転項目に注意:測定しようとする概念の逆の概念を測定
   →質問文をちゃんと読んでもらうため
   →正の方向に得点を変換してから分析するのが一般的
   →2因子になることが!
     正の方向と逆転項目(ただし、相関高い)
      →態度が違う?
 標準化推定値と非標準化推定値
  理論1=α理論+誤差
 →非標準化:いじらない
 →標準化:理論と理論1の分散を1にする→αもかわる

 誤差分散
  標準化をすると理論1αの2乗+誤差1=1になる(1=理論1の分散)
  →理論1以外でも同じ
  誤差の分散が誤差分散
   →推定すべきパラメータ

確認的因子分析のまとめ
・観測変数を因子にまとめるための方法
 因子を与える
 因子負荷量
 想定したモデルが当てはまっているか「確認」する
   →指標をもちいる
 非標準化推定値と標準化推定値の2種類
 因子負荷量と誤差分析と因子間相関

識別
・パス図で理解
  →なぜ、共分散構造分析?
・突然ですが、連立方程式の解を考えます
  唯一の答えが求まる→丁度識別(Just Identified)
  満たす組はない→識別不能(over Identified)
  無数にある→識別不定(Unidentified)

識別不能のとき、どちらのほうが、適切か
  →適切さの程度はわかる

解の不適切さの程度
 不適切さの程度を最小にするような(a,b)の組をみつける
  →最小二乗法
 不適切さの程度が適合度と同等の意味を持つ

丁度識別の確認的因子分析モデル
→1つの解が求まる
 パラメータ:因子負荷量、誤差分散
 因子の分散、誤差からの係数=1

識別不能の確認的因子分析モデル
  4つに増えた:ベストのものを考えられる

識別不定の確認的因子分析モデル
  2つにへると:解が無数
→はじめ、解が求まらないといった状況

共分散構造分析の仕組み
・標本データから計算される観測変数間の共分散行列S
 パラメータで表現された観測変数間の共分散行列Σ
 SとΣの差を小さくなるパラメータを推定する

 →Σのパラメータの方程式=Sの値とおくと
  方程式6本、変数6本→1つにきまる

 4つの因子だと
  10本の方程式、8つの変数→方程式が多いので識別不能

 2つの因子だと
  方程式3本、4つの変数→方程式が少ないので識別不定

 →2つの因子の場合
  2つの因子は同じ、誤差分散が同じなどの仮定をおくと解ける

なぜ、因子の分散=1、誤差からの係数=1としたか?
 →パラメータの数が増え、識別不定になってしまう。
 因子負荷量と因子の分散は連動しているので、因子の分散=1とする
 誤差の分散と誤差からの影響は連動しているので、
  どちらかを1に固定することで、方程式を識別する

適合度
 連立方程式によく当てはまる解であるほど、適合度は高くなる
  丁度識別:完全な適合→適合度検討できない
  識別不能のとき→適合度検討できる
  識別不定→そもそも解がもとまらない

自由度=連立方程式の本数-パラメータ数

左辺=モデル、右辺=データ
 右辺のデータは変わらない
 左辺のモデルは変化する
   →適合度は変わる
→モデルを変更してもSは変わらない
 でもΣは変わる(モデルを変更すれば)
 モデルを変更するとSとΣが近くなる可能性があるので
 モデル比較を行う

倹約的なモデル(倹約的な適合度)
 RMSEA→倹約的な考え方
 SとΣを近づけるにはパラメータをたくさん入れればよい
  →別のデータでは当てはまり悪くなる
 推測統計学
  頑健なモデルをだす
  →倹約的な指標を使う

パス解析
 パス図
 パス解析とは:観測変数間の因果関係をモデル化し、
 パス係数や相関係数によって、関係の強さを調べるための分析

 X→YでもY→Xでも適合度が変わらないことがある
  →同値モデルという
 →因果の方向性を知ることは難しい
  分析者が仮定したモデルを分析

「グラフィカル多変量解析」より
  →内容的には共分散構造分析
・4つの観測変数
  乗車年数、走行距離、車検、価格
・モデル1
  パス図、
  パス係数
  非標準化、標準化:共分散と相関の関係と同じ
  非標準化もいいところある
   :単位に依存させて解釈することでわかりやすいことも
・モデル2
 1個→入れる
   決定係数が増える:誤差分散に注目

直接効果
  →ダイレクトに影響する
間接効果
  →間接的に影響する
総合効果=直接効果+間接効果

直接効果の解釈
  他の条件が一定なら・・・
間接効果の解釈
  間接効果間の係数*直接効果の係数
総合効果の解釈
  直接効果+間接効果

・単位がある場合は単位に沿ったほうがわかりやすい
アンケート調査:単位がない
  →標準化したほうがわかりやすい
  →心理学:単位ない

標準化されている場合
 変数が1増える=1標準偏差増えている
 標準化Z=(X-Xの平均)/標準偏差
 Zが1増える=(X-Xの平均)が1標準偏差増える

「多変量データ解析法」より
・従属変数に複数の変数が影響を与える場合
  →直接効果の解釈と同じ

SEMにおけるパス係数の推定方法
丁度識別=飽和モデル

識別のためのルール
 初期値を変えて分析しても、結果が変わらなければ、
 識別されている


潜在変数間のパス解析(確認的因子分析+パス解析)
・因子変数間のパス解析(いわゆる共分散構造分析)
  希薄化の修正
・そのデータだからいい結果が出た
  →別のデータなら拮抗してるモデルがよくなるかも
・パス係数の解釈

希薄化
・因子を導入する理由
 因子分析のモデル
  X=a*F+E
 F因子(因子得点)=観測変数(X)-誤差(E)
 誤差
   測定誤差
   独自因子
 共通してくるところが知りたい
 X1+X2+X3の合計得点は3F+E1+E2+E3
  →誤差が足されてしまう
 誤差の影響で薄まる:希薄化
・因子を導入するメリット
 合計得点よりも相関が大きくなる
 因子を使用するほうが研究目的に即している

多母集団解析
・2枚パス図を出す
  複数の母集団を想定する
   →分けないと本当のことがわからない状況
  等値制約:群1と群2のパラメータを小さくする
    →a1=a2
    →測定不偏の制約

適合度のよしあし:パラメータが近い値なら等値にしても
  適合度悪くならない

企業イメージの多母集団解析:鈴木先生
 菊の花
 2つの変数:相関受けていれば、OK
 1つの変数でも可能(実質的に同じにする:最近はそんなことしない)

職場環境と個人の意識の関係
 探索的因子分析をした→仮説が存在しなかったから

日経企業イメージ調査

ソフトウェア
 たくさんある。
 昔はSASのprocedure→多母集団解析ができないので、今使われていない
 Mplus:広範囲、お金かかる
 Rのフリーソフト:らばーん(lavaan),SEM,OpenMx
 EQS,Lisrel(りずれる)
 →方程式を書かないといけない

 パス図を書けばいい
   AMOS
  →日本人ユーザーおおい

 Mx:フリーソフト
  Σを指定する

・ユーザー多いのはAMOS
 特殊なことしなければ、Rでできる

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする