裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

ダメ出し:バグというのは早計で,使い方を反省すべきかも

2012年12月19日 | 統計学

 社会調査士のためのこれからの因子分析 にて

> 因子分析も連続変数と見なした古典的方法と,ポリコリック相関係数をつかった方法,両方で見てみましょう。 まずは古典的方法から。

> fa.result.n <- fa(Science.n, nfactors = 3, fm = "ml", rotate = "promax")

> ## In fa, too many factors requested for this number of variables to use SMC
> ## for communality estimates, 1s are used instead

変数の個数が 4 個であるにもかかわらず,因子数を 3 に指定(nfactors = 3)したら,こういうエラーメッセージ(too many factors requested)も出ようというもの。なぜ,それを無視して話を進めるのか,理解に苦しむが。

> ## Error: 'x' must be an array of at least two dimensions

> まあ他にも色々できるようですが,まだちょっと関数の挙動が怪しかったりします。

色々エラーが出るというのは,解析の条件設定に無理があるのではないかな?

> 警告が出るのでちょっと推定がうまくいってないかもです

そうかもね

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ダメ出し:分析に使用する変数

2012年12月19日 | 統計学

主成分分析をやる にて

> 主成分分析を行う。
> respca <- prcomp(data0[, -c(1:3)])

というのは,まずい。

用いたデータには,試合数,打席数,安打数などの計数値と,長打率,安打率のような割合が混在している。このような場合には,変数は標準化したほうがよい(しない方がよいという観点もあるが)。

ということで,少なくとも,

respca <- prcomp(data0[, -c(1:3)], scale. = TRUE)

としたほうがよいと思われる。

また,長打率,安打率が使われている意味を考えると,安打数,二塁打数などというのも,打数(または打席数)に対しての率のデータにして使う方がよいだろう。安打数が同じ10でも,20打席の場合と100打席の場合では意味が異なる。もっとも,打席数(出場試合数)が多い選手は,成績が同じでも優れているという評価になるかもしれないが。


いずれにせよ,分析にどのような変数を使うべきかは,各分野の固有科学が解答を出してくれる(固有科学から解答を見いだす必要がある)ということではあろう。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

PVアクセスランキング にほんブログ村

PVアクセスランキング にほんブログ村