RPubs - Rによるやさしい統計学 - 第一章 Rと統計学
http://rpubs.com/azu/stats_with_R_1
この一つ前の記事を書いた後,Web の大海を漂っていると,標記のページに出会った。
関数を作ってみよう
標本分散
var() という関数がネイティブにある
不偏分散
自分で varp() という関数を定義してみる
詳細は2章でー
varp <- function(x) {
標本分散 <- var(x) * (length(x) - 1/length(x))
標本分散
}
標本分散と不偏分散という用語(統計量)の使い分けがはっきりしていない。
以下では R の記法(文法で)話をしよう。
x をデータベクトルとすると,「標本の大きさ(サンプルサイズ)」n は,
n <- length(x)
である。
変動 SS(Sum of Squares)は,以下のようであるということは,皆が正しく理解している。
SS <- sum(x-mean(x))
分散 V は
V <- SS / n
不偏分散 U は
U <- SS / (n-1)
これは,初級の統計学の教科書に書かれていることである。
さて,ここからいろいろな問題が生じる。
(1) 不偏分散 U のことを,単に「分散」と呼ぶ人がいる。
統計学では,分散としては不偏分散のことをさすことが多いので,やむを得ないというか,妥当な取扱であるともいえる。しかし,両者を区別したい(区別すべき)場合に,本来の分散のことをなんと呼ぶのか。
(2) 不偏分散 U のことを,「標本分散」と呼ぶ人がいる。これに対して,分散 V は「母分散」と呼ぶ人がいる。
標本分散とは,標本の分散ということである。母分散とは,母集団の分散ということである。
標本の分散は,SS / n によろうが,SS / (n-1) によろうが,どちらも分散である。
本来,母分散というのは観察できないものである。小さな母集団で,データが全て分かっている(測定された)ということならば母分散を計算することはできる。SS を n で割ったもの V を分散と母分散と呼んでも差し支えはないだろう。
しかし,標本データにおいて,SS を n で割ったものを母分散,SS を n-1 で割ったほうを標本分散と呼び分けるのはまちがいである。SS / n は母分散ではないし,SS / n も標本分散なのだから。
(3) このブログの著者(彼が読んだ本「R による易しい統計学」の著者)は,var( ) は不偏分散であり,これに基づいて分散を計算するが,それを「標本分散」と呼ぶ??として varp( ) という関数を定義しようとしている。
var と varp は Excel がそれぞれの統計量を計算する関数名として使用している(それを踏襲しようというのもどうかと思うが)。
(4) SS / (n-1) という標本分散(不偏分散)は,母分散のよい推定値となるが,SS / n という標本分散は不偏推定値ではなく,母分散の推定値としては不適切である。
まとめよう
SS / n も SS / (n-1) も,共に「標本分散」である
SS / (n-1) は「不偏分散」,SS / n は単に「分散」と呼ぶ
SS / (n-1) は「母分散のよい推定値」になる(不偏推定値)
SS / n も母分散の推定値であるが,「母分散の不偏推定値ではない」
最新の画像[もっと見る]
- 本格手打 もり屋 高松本店 15時間前
- 本格手打 もり屋 高松本店 15時間前
- 本格手打 もり屋 高松本店 15時間前
- 算額(その1559) 1日前
- 算額(その1559) 1日前
- 算額(その1559) 1日前
- 算額(その1558) 2日前
- 算額(その1557) 2日前
- 算額(その1556) 2日前
- 算額(その1556) 2日前