裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

n で割るか n-1 で割るか,それが問題だ

2013年12月16日 | ブログラミング

RPubs - Rによるやさしい統計学 - 第一章 Rと統計学
http://rpubs.com/azu/stats_with_R_1

この一つ前の記事を書いた後,Web の大海を漂っていると,標記のページに出会った。


関数を作ってみよう

標本分散

    var() という関数がネイティブにある

不偏分散

    自分で varp() という関数を定義してみる

詳細は2章でー

varp <- function(x) {
    標本分散 <- var(x) * (length(x) - 1/length(x))
    標本分散
}

標本分散と不偏分散という用語(統計量)の使い分けがはっきりしていない。

以下では R の記法(文法で)話をしよう。

x をデータベクトルとすると,「標本の大きさ(サンプルサイズ)」n は,

n <- length(x)

である。

変動 SS(Sum of Squares)は,以下のようであるということは,皆が正しく理解している。

SS <- sum(x-mean(x))

分散 V は

V <- SS / n

不偏分散 U は

U <- SS / (n-1)

これは,初級の統計学の教科書に書かれていることである。

さて,ここからいろいろな問題が生じる。

(1) 不偏分散 U のことを,単に「分散」と呼ぶ人がいる。

統計学では,分散としては不偏分散のことをさすことが多いので,やむを得ないというか,妥当な取扱であるともいえる。しかし,両者を区別したい(区別すべき)場合に,本来の分散のことをなんと呼ぶのか。

(2) 不偏分散 U のことを,「標本分散」と呼ぶ人がいる。これに対して,分散 V は「母分散」と呼ぶ人がいる。

標本分散とは,標本の分散ということである。母分散とは,母集団の分散ということである。
標本の分散は,SS / n によろうが,SS / (n-1) によろうが,どちらも分散である。
本来,母分散というのは観察できないものである。小さな母集団で,データが全て分かっている(測定された)ということならば母分散を計算することはできる。SS を n で割ったもの V を分散と母分散と呼んでも差し支えはないだろう。
しかし,標本データにおいて,SS を n で割ったものを母分散,SS を n-1 で割ったほうを標本分散と呼び分けるのはまちがいである。SS / n は母分散ではないし,SS / n も標本分散なのだから。

(3) このブログの著者(彼が読んだ本「R による易しい統計学」の著者)は,var( ) は不偏分散であり,これに基づいて分散を計算するが,それを「標本分散」と呼ぶ??として varp( ) という関数を定義しようとしている。
var と varp は Excel がそれぞれの統計量を計算する関数名として使用している(それを踏襲しようというのもどうかと思うが)。

(4) SS / (n-1) という標本分散(不偏分散)は,母分散のよい推定値となるが,SS / n という標本分散は不偏推定値ではなく,母分散の推定値としては不適切である。

まとめよう

SS / n も SS / (n-1) も,共に「標本分散」である
SS / (n-1) は「不偏分散」,SS / n は単に「分散」と呼ぶ
SS / (n-1) は「母分散のよい推定値」になる(不偏推定値)
SS / n も母分散の推定値であるが,「母分散の不偏推定値ではない」

コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 統計検定2級の問題だそうだ | トップ | 数値計算の定石,そして,R ... »
最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

ブログラミング」カテゴリの最新記事