平成25年度筑波大学重点公開講座「統計的解析によるビジネスデータの高度活用」
の第3回尾崎先生による「共分散構造分析」を昨日(9月17日)聞いてきたので
メモメモ
・理論と応用をまぜまぜしながら解説
「入門共分散構造分析の実際」より
・パス図
四角で囲まれているもの→観測変数:データ
丸く囲まれているもの→因子(潜在変数):まとめたもの
Eと書かれているもの→誤差
単方向のやじるし→回帰
四角をそのままみると、いっぱいあって、煩雑
→いくつかをひとつにまとめ:見通しよくする
2つのフェーズ
因子を導出するフェーズ:因子分析
関係を調べるフェーズ:パス解析
共分散構造分析「入門編」
中学一年と高校1年の知能の関係
・知能を抽出する
・知能の間の回帰分析
共分散構造分析
・潜在変数間のパス解析(因子の間の回帰分析)
・因子分析と回帰分析を同時に行う
→モデルの適切さを調べることが可能
→立てた仮説が正しいか:演繹
統計学の専門家の視点
観測変数間の共分散行列をデータとモデルの
両方で表現して両者が近づくようなパラメータ
を推定する方法
共分散構造分析が適用されるデータ
心理学・社会学
因子分析:知能から発展
量的データ
質的データ
本日の解説
確認的因子分析・パス解析・潜在変数間のパス解析
今日分散構造分析にかかわる理論的知識
探索的因子分析については、時間の関係で割愛
因子分析:2つある
探索的因子分析:普通因子分析はこっち
確認的因子分析
因子分析とは
・(観測されている)変数間のまとまり(因子:潜在変数)
を見つけるための統計手法
→相関の高い変数同士が同じ因子にまとまる
因子分析をみて、まとまり方
確認的因子分析
・各観測変数がどの因子の影響を受けているかを
仮説としてモデル化する
モデルの適切さは適合度という指標で検討される
→今日分散構造分析の枠組み
探索的因子分析:
観測変数と因子の対応がついていない場合
・観測変数のうち、因子で説明されない部分が誤差である
文系因子
理系因子
因子間のやじるし:相関
いろんなモデルが作れる
→制約を課さないと解が求められない
一番良いモデルは何か?→適合度指標
構造方程式モデル:SEM
当てはまりが悪いモデル:自分勝手なこと言っている
指標:GFI,AGFI,AICなど
・指標
2つに分かれる:絶対的な指標と相対的な指標
絶対的な指標:GFI,AGFI,RMSEA・・・
かい2乗のp値:大きいほうがいい(0.05以上)
→SEMでは棄却されると都合悪い
いまは、RMSEAが良く使われる
相対的な指標:AIC,BIC
・因子負荷量
因子分析で一番重要なアウトプット
観測変数が因子から受けている影響の大きさを
数字で表したもの
標準化を行って-1~1の範囲で表現
回帰分析における説明変数(独立変数)
が因子になっている場合の回帰係数
・因子間相関
因子と因子の間の相関係数
因子得点間の相関
単回帰分析と同じ:1つの→
重回帰分析と同じ:2つの→
共通性:因子で説明できる部分→R2
独立性:説明できない部分
探索的因子分析
すべてからすべてに→がひかれている
分析例
価値指向性尺度
逆転項目に注意:測定しようとする概念の逆の概念を測定
→質問文をちゃんと読んでもらうため
→正の方向に得点を変換してから分析するのが一般的
→2因子になることが!
正の方向と逆転項目(ただし、相関高い)
→態度が違う?
標準化推定値と非標準化推定値
理論1=α理論+誤差
→非標準化:いじらない
→標準化:理論と理論1の分散を1にする→αもかわる
誤差分散
標準化をすると理論1αの2乗+誤差1=1になる(1=理論1の分散)
→理論1以外でも同じ
誤差の分散が誤差分散
→推定すべきパラメータ
確認的因子分析のまとめ
・観測変数を因子にまとめるための方法
因子を与える
因子負荷量
想定したモデルが当てはまっているか「確認」する
→指標をもちいる
非標準化推定値と標準化推定値の2種類
因子負荷量と誤差分析と因子間相関
識別
・パス図で理解
→なぜ、共分散構造分析?
・突然ですが、連立方程式の解を考えます
唯一の答えが求まる→丁度識別(Just Identified)
満たす組はない→識別不能(over Identified)
無数にある→識別不定(Unidentified)
識別不能のとき、どちらのほうが、適切か
→適切さの程度はわかる
解の不適切さの程度
不適切さの程度を最小にするような(a,b)の組をみつける
→最小二乗法
不適切さの程度が適合度と同等の意味を持つ
丁度識別の確認的因子分析モデル
→1つの解が求まる
パラメータ:因子負荷量、誤差分散
因子の分散、誤差からの係数=1
識別不能の確認的因子分析モデル
4つに増えた:ベストのものを考えられる
識別不定の確認的因子分析モデル
2つにへると:解が無数
→はじめ、解が求まらないといった状況
共分散構造分析の仕組み
・標本データから計算される観測変数間の共分散行列S
パラメータで表現された観測変数間の共分散行列Σ
SとΣの差を小さくなるパラメータを推定する
→Σのパラメータの方程式=Sの値とおくと
方程式6本、変数6本→1つにきまる
4つの因子だと
10本の方程式、8つの変数→方程式が多いので識別不能
2つの因子だと
方程式3本、4つの変数→方程式が少ないので識別不定
→2つの因子の場合
2つの因子は同じ、誤差分散が同じなどの仮定をおくと解ける
なぜ、因子の分散=1、誤差からの係数=1としたか?
→パラメータの数が増え、識別不定になってしまう。
因子負荷量と因子の分散は連動しているので、因子の分散=1とする
誤差の分散と誤差からの影響は連動しているので、
どちらかを1に固定することで、方程式を識別する
適合度
連立方程式によく当てはまる解であるほど、適合度は高くなる
丁度識別:完全な適合→適合度検討できない
識別不能のとき→適合度検討できる
識別不定→そもそも解がもとまらない
自由度=連立方程式の本数-パラメータ数
左辺=モデル、右辺=データ
右辺のデータは変わらない
左辺のモデルは変化する
→適合度は変わる
→モデルを変更してもSは変わらない
でもΣは変わる(モデルを変更すれば)
モデルを変更するとSとΣが近くなる可能性があるので
モデル比較を行う
倹約的なモデル(倹約的な適合度)
RMSEA→倹約的な考え方
SとΣを近づけるにはパラメータをたくさん入れればよい
→別のデータでは当てはまり悪くなる
推測統計学
頑健なモデルをだす
→倹約的な指標を使う
パス解析
パス図
パス解析とは:観測変数間の因果関係をモデル化し、
パス係数や相関係数によって、関係の強さを調べるための分析
X→YでもY→Xでも適合度が変わらないことがある
→同値モデルという
→因果の方向性を知ることは難しい
分析者が仮定したモデルを分析
「グラフィカル多変量解析」より
→内容的には共分散構造分析
・4つの観測変数
乗車年数、走行距離、車検、価格
・モデル1
パス図、
パス係数
非標準化、標準化:共分散と相関の関係と同じ
非標準化もいいところある
:単位に依存させて解釈することでわかりやすいことも
・モデル2
1個→入れる
決定係数が増える:誤差分散に注目
直接効果
→ダイレクトに影響する
間接効果
→間接的に影響する
総合効果=直接効果+間接効果
直接効果の解釈
他の条件が一定なら・・・
間接効果の解釈
間接効果間の係数*直接効果の係数
総合効果の解釈
直接効果+間接効果
・単位がある場合は単位に沿ったほうがわかりやすい
アンケート調査:単位がない
→標準化したほうがわかりやすい
→心理学:単位ない
標準化されている場合
変数が1増える=1標準偏差増えている
標準化Z=(X-Xの平均)/標準偏差
Zが1増える=(X-Xの平均)が1標準偏差増える
「多変量データ解析法」より
・従属変数に複数の変数が影響を与える場合
→直接効果の解釈と同じ
SEMにおけるパス係数の推定方法
丁度識別=飽和モデル
識別のためのルール
初期値を変えて分析しても、結果が変わらなければ、
識別されている
潜在変数間のパス解析(確認的因子分析+パス解析)
・因子変数間のパス解析(いわゆる共分散構造分析)
希薄化の修正
・そのデータだからいい結果が出た
→別のデータなら拮抗してるモデルがよくなるかも
・パス係数の解釈
希薄化
・因子を導入する理由
因子分析のモデル
X=a*F+E
F因子(因子得点)=観測変数(X)-誤差(E)
誤差
測定誤差
独自因子
共通してくるところが知りたい
X1+X2+X3の合計得点は3F+E1+E2+E3
→誤差が足されてしまう
誤差の影響で薄まる:希薄化
・因子を導入するメリット
合計得点よりも相関が大きくなる
因子を使用するほうが研究目的に即している
多母集団解析
・2枚パス図を出す
複数の母集団を想定する
→分けないと本当のことがわからない状況
等値制約:群1と群2のパラメータを小さくする
→a1=a2
→測定不偏の制約
適合度のよしあし:パラメータが近い値なら等値にしても
適合度悪くならない
企業イメージの多母集団解析:鈴木先生
菊の花
2つの変数:相関受けていれば、OK
1つの変数でも可能(実質的に同じにする:最近はそんなことしない)
職場環境と個人の意識の関係
探索的因子分析をした→仮説が存在しなかったから
日経企業イメージ調査
ソフトウェア
たくさんある。
昔はSASのprocedure→多母集団解析ができないので、今使われていない
Mplus:広範囲、お金かかる
Rのフリーソフト:らばーん(lavaan),SEM,OpenMx
EQS,Lisrel(りずれる)
→方程式を書かないといけない
パス図を書けばいい
AMOS
→日本人ユーザーおおい
Mx:フリーソフト
Σを指定する
・ユーザー多いのはAMOS
特殊なことしなければ、Rでできる
の第3回尾崎先生による「共分散構造分析」を昨日(9月17日)聞いてきたので
メモメモ
・理論と応用をまぜまぜしながら解説
「入門共分散構造分析の実際」より
・パス図
四角で囲まれているもの→観測変数:データ
丸く囲まれているもの→因子(潜在変数):まとめたもの
Eと書かれているもの→誤差
単方向のやじるし→回帰
四角をそのままみると、いっぱいあって、煩雑
→いくつかをひとつにまとめ:見通しよくする
2つのフェーズ
因子を導出するフェーズ:因子分析
関係を調べるフェーズ:パス解析
共分散構造分析「入門編」
中学一年と高校1年の知能の関係
・知能を抽出する
・知能の間の回帰分析
共分散構造分析
・潜在変数間のパス解析(因子の間の回帰分析)
・因子分析と回帰分析を同時に行う
→モデルの適切さを調べることが可能
→立てた仮説が正しいか:演繹
統計学の専門家の視点
観測変数間の共分散行列をデータとモデルの
両方で表現して両者が近づくようなパラメータ
を推定する方法
共分散構造分析が適用されるデータ
心理学・社会学
因子分析:知能から発展
量的データ
質的データ
本日の解説
確認的因子分析・パス解析・潜在変数間のパス解析
今日分散構造分析にかかわる理論的知識
探索的因子分析については、時間の関係で割愛
因子分析:2つある
探索的因子分析:普通因子分析はこっち
確認的因子分析
因子分析とは
・(観測されている)変数間のまとまり(因子:潜在変数)
を見つけるための統計手法
→相関の高い変数同士が同じ因子にまとまる
因子分析をみて、まとまり方
確認的因子分析
・各観測変数がどの因子の影響を受けているかを
仮説としてモデル化する
モデルの適切さは適合度という指標で検討される
→今日分散構造分析の枠組み
探索的因子分析:
観測変数と因子の対応がついていない場合
・観測変数のうち、因子で説明されない部分が誤差である
文系因子
理系因子
因子間のやじるし:相関
いろんなモデルが作れる
→制約を課さないと解が求められない
一番良いモデルは何か?→適合度指標
構造方程式モデル:SEM
当てはまりが悪いモデル:自分勝手なこと言っている
指標:GFI,AGFI,AICなど
・指標
2つに分かれる:絶対的な指標と相対的な指標
絶対的な指標:GFI,AGFI,RMSEA・・・
かい2乗のp値:大きいほうがいい(0.05以上)
→SEMでは棄却されると都合悪い
いまは、RMSEAが良く使われる
相対的な指標:AIC,BIC
・因子負荷量
因子分析で一番重要なアウトプット
観測変数が因子から受けている影響の大きさを
数字で表したもの
標準化を行って-1~1の範囲で表現
回帰分析における説明変数(独立変数)
が因子になっている場合の回帰係数
・因子間相関
因子と因子の間の相関係数
因子得点間の相関
単回帰分析と同じ:1つの→
重回帰分析と同じ:2つの→
共通性:因子で説明できる部分→R2
独立性:説明できない部分
探索的因子分析
すべてからすべてに→がひかれている
分析例
価値指向性尺度
逆転項目に注意:測定しようとする概念の逆の概念を測定
→質問文をちゃんと読んでもらうため
→正の方向に得点を変換してから分析するのが一般的
→2因子になることが!
正の方向と逆転項目(ただし、相関高い)
→態度が違う?
標準化推定値と非標準化推定値
理論1=α理論+誤差
→非標準化:いじらない
→標準化:理論と理論1の分散を1にする→αもかわる
誤差分散
標準化をすると理論1αの2乗+誤差1=1になる(1=理論1の分散)
→理論1以外でも同じ
誤差の分散が誤差分散
→推定すべきパラメータ
確認的因子分析のまとめ
・観測変数を因子にまとめるための方法
因子を与える
因子負荷量
想定したモデルが当てはまっているか「確認」する
→指標をもちいる
非標準化推定値と標準化推定値の2種類
因子負荷量と誤差分析と因子間相関
識別
・パス図で理解
→なぜ、共分散構造分析?
・突然ですが、連立方程式の解を考えます
唯一の答えが求まる→丁度識別(Just Identified)
満たす組はない→識別不能(over Identified)
無数にある→識別不定(Unidentified)
識別不能のとき、どちらのほうが、適切か
→適切さの程度はわかる
解の不適切さの程度
不適切さの程度を最小にするような(a,b)の組をみつける
→最小二乗法
不適切さの程度が適合度と同等の意味を持つ
丁度識別の確認的因子分析モデル
→1つの解が求まる
パラメータ:因子負荷量、誤差分散
因子の分散、誤差からの係数=1
識別不能の確認的因子分析モデル
4つに増えた:ベストのものを考えられる
識別不定の確認的因子分析モデル
2つにへると:解が無数
→はじめ、解が求まらないといった状況
共分散構造分析の仕組み
・標本データから計算される観測変数間の共分散行列S
パラメータで表現された観測変数間の共分散行列Σ
SとΣの差を小さくなるパラメータを推定する
→Σのパラメータの方程式=Sの値とおくと
方程式6本、変数6本→1つにきまる
4つの因子だと
10本の方程式、8つの変数→方程式が多いので識別不能
2つの因子だと
方程式3本、4つの変数→方程式が少ないので識別不定
→2つの因子の場合
2つの因子は同じ、誤差分散が同じなどの仮定をおくと解ける
なぜ、因子の分散=1、誤差からの係数=1としたか?
→パラメータの数が増え、識別不定になってしまう。
因子負荷量と因子の分散は連動しているので、因子の分散=1とする
誤差の分散と誤差からの影響は連動しているので、
どちらかを1に固定することで、方程式を識別する
適合度
連立方程式によく当てはまる解であるほど、適合度は高くなる
丁度識別:完全な適合→適合度検討できない
識別不能のとき→適合度検討できる
識別不定→そもそも解がもとまらない
自由度=連立方程式の本数-パラメータ数
左辺=モデル、右辺=データ
右辺のデータは変わらない
左辺のモデルは変化する
→適合度は変わる
→モデルを変更してもSは変わらない
でもΣは変わる(モデルを変更すれば)
モデルを変更するとSとΣが近くなる可能性があるので
モデル比較を行う
倹約的なモデル(倹約的な適合度)
RMSEA→倹約的な考え方
SとΣを近づけるにはパラメータをたくさん入れればよい
→別のデータでは当てはまり悪くなる
推測統計学
頑健なモデルをだす
→倹約的な指標を使う
パス解析
パス図
パス解析とは:観測変数間の因果関係をモデル化し、
パス係数や相関係数によって、関係の強さを調べるための分析
X→YでもY→Xでも適合度が変わらないことがある
→同値モデルという
→因果の方向性を知ることは難しい
分析者が仮定したモデルを分析
「グラフィカル多変量解析」より
→内容的には共分散構造分析
・4つの観測変数
乗車年数、走行距離、車検、価格
・モデル1
パス図、
パス係数
非標準化、標準化:共分散と相関の関係と同じ
非標準化もいいところある
:単位に依存させて解釈することでわかりやすいことも
・モデル2
1個→入れる
決定係数が増える:誤差分散に注目
直接効果
→ダイレクトに影響する
間接効果
→間接的に影響する
総合効果=直接効果+間接効果
直接効果の解釈
他の条件が一定なら・・・
間接効果の解釈
間接効果間の係数*直接効果の係数
総合効果の解釈
直接効果+間接効果
・単位がある場合は単位に沿ったほうがわかりやすい
アンケート調査:単位がない
→標準化したほうがわかりやすい
→心理学:単位ない
標準化されている場合
変数が1増える=1標準偏差増えている
標準化Z=(X-Xの平均)/標準偏差
Zが1増える=(X-Xの平均)が1標準偏差増える
「多変量データ解析法」より
・従属変数に複数の変数が影響を与える場合
→直接効果の解釈と同じ
SEMにおけるパス係数の推定方法
丁度識別=飽和モデル
識別のためのルール
初期値を変えて分析しても、結果が変わらなければ、
識別されている
潜在変数間のパス解析(確認的因子分析+パス解析)
・因子変数間のパス解析(いわゆる共分散構造分析)
希薄化の修正
・そのデータだからいい結果が出た
→別のデータなら拮抗してるモデルがよくなるかも
・パス係数の解釈
希薄化
・因子を導入する理由
因子分析のモデル
X=a*F+E
F因子(因子得点)=観測変数(X)-誤差(E)
誤差
測定誤差
独自因子
共通してくるところが知りたい
X1+X2+X3の合計得点は3F+E1+E2+E3
→誤差が足されてしまう
誤差の影響で薄まる:希薄化
・因子を導入するメリット
合計得点よりも相関が大きくなる
因子を使用するほうが研究目的に即している
多母集団解析
・2枚パス図を出す
複数の母集団を想定する
→分けないと本当のことがわからない状況
等値制約:群1と群2のパラメータを小さくする
→a1=a2
→測定不偏の制約
適合度のよしあし:パラメータが近い値なら等値にしても
適合度悪くならない
企業イメージの多母集団解析:鈴木先生
菊の花
2つの変数:相関受けていれば、OK
1つの変数でも可能(実質的に同じにする:最近はそんなことしない)
職場環境と個人の意識の関係
探索的因子分析をした→仮説が存在しなかったから
日経企業イメージ調査
ソフトウェア
たくさんある。
昔はSASのprocedure→多母集団解析ができないので、今使われていない
Mplus:広範囲、お金かかる
Rのフリーソフト:らばーん(lavaan),SEM,OpenMx
EQS,Lisrel(りずれる)
→方程式を書かないといけない
パス図を書けばいい
AMOS
→日本人ユーザーおおい
Mx:フリーソフト
Σを指定する
・ユーザー多いのはAMOS
特殊なことしなければ、Rでできる