メモ帳

各種メモ代わり

R factor の注意点

2011-04-18 20:31:27 | ソフト
4月18日(月)曇りのち雨
天気予報では午後から雨。その通りとなった。

金曜日にやっていた集計の続き。
Rで集計していると、Rのfactorの取扱で違和感を覚える。
かってに数値をfactorにして、かってにそのレベルの数値に変換する。
エラーメッセージも表示されないので、違う数値になっていることに
気付かないこともあるので要注意!

具体的にはある変数、ほとんどは2ケタの正の整数値。
一部、空白とともに、文字列「na」が入っていた。

このデータをRで読み込むと、factor となっていた。
それを知らずに「as.numeric」をかけると、・・・

もとのデータが
 10, 20, 30, na
だとすると、factorになり、内部的には
  1, 2, 4, 4
というレベル値で記憶され、as.numericを
かけると、そのレベル値になってしまう。
すなわち「10」という値が、いつの間にか「1」に
変化して計算で使われてしまう。

今回は値を表示するだけだったので、気づいたが、
計算式のなかで使われていると、変な値になってしまい、
悩むところだったでしょう。

注意しよう!