裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

n で割るか n-1 で割るか,それが問題だ

2013年12月16日 | ブログラミング

RPubs - Rによるやさしい統計学 - 第一章 Rと統計学
http://rpubs.com/azu/stats_with_R_1

この一つ前の記事を書いた後,Web の大海を漂っていると,標記のページに出会った。


関数を作ってみよう

標本分散

    var() という関数がネイティブにある

不偏分散

    自分で varp() という関数を定義してみる

詳細は2章でー

varp <- function(x) {
    標本分散 <- var(x) * (length(x) - 1/length(x))
    標本分散
}

標本分散と不偏分散という用語(統計量)の使い分けがはっきりしていない。

以下では R の記法(文法で)話をしよう。

x をデータベクトルとすると,「標本の大きさ(サンプルサイズ)」n は,

n <- length(x)

である。

変動 SS(Sum of Squares)は,以下のようであるということは,皆が正しく理解している。

SS <- sum(x-mean(x))

分散 V は

V <- SS / n

不偏分散 U は

U <- SS / (n-1)

これは,初級の統計学の教科書に書かれていることである。

さて,ここからいろいろな問題が生じる。

(1) 不偏分散 U のことを,単に「分散」と呼ぶ人がいる。

統計学では,分散としては不偏分散のことをさすことが多いので,やむを得ないというか,妥当な取扱であるともいえる。しかし,両者を区別したい(区別すべき)場合に,本来の分散のことをなんと呼ぶのか。

(2) 不偏分散 U のことを,「標本分散」と呼ぶ人がいる。これに対して,分散 V は「母分散」と呼ぶ人がいる。

標本分散とは,標本の分散ということである。母分散とは,母集団の分散ということである。
標本の分散は,SS / n によろうが,SS / (n-1) によろうが,どちらも分散である。
本来,母分散というのは観察できないものである。小さな母集団で,データが全て分かっている(測定された)ということならば母分散を計算することはできる。SS を n で割ったもの V を分散と母分散と呼んでも差し支えはないだろう。
しかし,標本データにおいて,SS を n で割ったものを母分散,SS を n-1 で割ったほうを標本分散と呼び分けるのはまちがいである。SS / n は母分散ではないし,SS / n も標本分散なのだから。

(3) このブログの著者(彼が読んだ本「R による易しい統計学」の著者)は,var( ) は不偏分散であり,これに基づいて分散を計算するが,それを「標本分散」と呼ぶ??として varp( ) という関数を定義しようとしている。
var と varp は Excel がそれぞれの統計量を計算する関数名として使用している(それを踏襲しようというのもどうかと思うが)。

(4) SS / (n-1) という標本分散(不偏分散)は,母分散のよい推定値となるが,SS / n という標本分散は不偏推定値ではなく,母分散の推定値としては不適切である。

まとめよう

SS / n も SS / (n-1) も,共に「標本分散」である
SS / (n-1) は「不偏分散」,SS / n は単に「分散」と呼ぶ
SS / (n-1) は「母分散のよい推定値」になる(不偏推定値)
SS / n も母分散の推定値であるが,「母分散の不偏推定値ではない」

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

統計検定2級の問題だそうだ

2013年12月16日 | 統計学

統計検定2級 2013年11月17日試験の誤答:問18
http://ranalytics.blog.fc2.com/blog-entry-53.html


これについて,私は,問題が悪いと思う。

病気 D(D 群)の患者 8 人,健常者(N 群)の 6 人に糖負荷検査を行い,負荷後 30 分の血糖値(mg/dL)を測定した。次の表は,その結果である。

として,血糖値が示されている。

D 群 68, 65, 60, 55, 52, 48, 46, 46
N 群 54, 50, 42, 40, 33, 33

また,それぞれの群の平均と分散は次のとおりである。

として,要約統計量が示されている。

D 群 平均 $¥bar{y}_{D}$ = 55, 分散 $s_{D}^{2}$ = 73.4
N 群 平均 $¥bar{y}_{N}$ = 42, 分散 $s_{N}^{2}$ = 74.8

経験的に,D 群の母分散 $s_{D}^{2}$ と N 群の母分散 $s_{N}^{2}$ は等しいとみなしてよいことがわかっている。これより,2 群の血糖値の上昇値に差があるかどうかを検定したい。次のように $t$ 検定を行うことを考える。

この段階で,私は考える。分散って不偏分散じゃないの?

実際,次の設問で「プールした分散 $s^{2}$ を求める式はどれか」ということで,正解として,

が選ばれるようになっているので,やはり「分散」は「不偏分散」と明示的に書くべきであろう。

次の設問は,「検定統計量 $t$ の値を求める式」を問うているが,それらしい選択肢には,

と書いてある。うっかりすると,以下に示す式

が書いてあるかとまちがいそう。間違えてしまうと正解がないということになるので,なおうろたえるかも。

そもそも,こういう式は

のように書く方がよいのではないか(普通,多くの教科書ではこのように書いてある)。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

PVアクセスランキング にほんブログ村

PVアクセスランキング にほんブログ村