2012年12月7日のブログ記事一覧-裏 RjpWiki

ダメ出し：R で学ぶデータ・プログラミング入門 ―RStudioを活用する―　その5

2012年12月07日 | ブログラミング

おまけで

163 ページで，コイン投げの結果をヒストグラムで描いている。「不適切である」と指摘した理由がわからない人もいるかもしれないので，以下のような例を挙げておく。

全試行回数は 10000 にしたが，ヒストグラムを描く breaks は著書の通り。

ヒストグラムはまずいというのは，一目瞭然。棒グラフを描くべし。

> layout(matrix(1:2, 2))
> x <- c("表", "裏")
> z <- numeric(10000)
> set.seed(123)
> for (i in 1:10000) {
+    y <- sample(x, 10, rep=TRUE)
+    z[i] <- sum(y == "表")
+ }
> freq <- table(z)
> hist(z, breaks=0:10)
> barplot(freq, main="Barplot of table(z)")
> layout(1)
> freq
z
   0    1    2    3    4    5    6    7    8    9   10
   7 108 415 1140 2036 2470 2047 1203 467 102    5

頑張ってます。クリックお願いします。

ダメ出し：R で学ぶデータ・プログラミング入門 ―RStudioを活用する―　その4

2012年12月07日 | ブログラミング

● 184 ページ　下から 6 行目
半キロ　→　0.5 キロ

● 185 ページ　上から 4 行目
H0　→　0 は添え字（下付）

● 186 ページ　下から 5 行目
適正　→　適性

● 186 ページ　下から 2 行目
2標本の平均値の検定　→　独立2標本の平均値の検定
　R の用語法もおかしいのだけど，統計学の常識としてこれはちゃんと「独立2標本の」といわなければおかしい。特に，あとで，対応のある2標本のお話が出てくるのだから余計に。

● 197 ページ　上から 2 行目
csv　→　CSV
　他では大文字になっているのだから統一

● 200 ページ　上から 13 行目
欧米の　→　アメリカの
　他にも2箇所出てくるが，いつも曖昧に書いている。ぼかして書く意味がない。

● 205 ページ　上から 2 行目
カイ二乗分布は自由度が大きくなると正規分布の形状に近づく分布
　自由度がνのカイ二乗分布は，平均値がν，分散が2νである。正規分布においては平均値と分散は独立である。よって，カイ二乗分布は正規分布で近似できるようなものではない。

● 208 ページ　上から 5 行目
この値を 1 から引き算すれば，指定されたカイ自乗値より大きな数値が出る確率が求まります。
　その下に書いてあるように，lower.tail=FALSE を指定するのが正しいやり方。統計的判断に影響のあるような違いではないが，丸め誤差などの影響で表示される結果が異なることがある。
> 1-pchisq(50, 1)
[1] 1.537437e-12
> pchisq(50, 1, lower.tail=FALSE)
[1] 1.53746e-12
> options(digits=16)
> 1-pchisq(50, 1)
[1] 1.537436844500917e-12
> pchisq(50, 1, lower.tail=FALSE)
[1] 1.537459794428036e-12

● 210 ページ　表のタイトル
選挙前後に内閣支持率の変動　→　選挙前後における内閣支持率の変動　または　選挙前後の内閣支持率の変動
　それにしても，この本における表組みは変。編集段階で何とかならなかったのか?

● 212 ページ
　一元配置分散分析に aov を使っているが，なぜ oneway.test を使わないのだろうか?教科書的な分散分析表が欲しいのか?
> oneway.test(weight ~ group, data=PlantGrowth)

One-way analysis of means (not assuming equal variances)

data: weight and group
F = 5.181, num df = 2.000, denom df = 17.128, p-value = 0.01739

> oneway.test(weight ~ group, data=PlantGrowth, var.equal=TRUE)

One-way analysis of means

data: weight and group
F = 4.8461, num df = 2, denom df = 27, p-value = 0.01591
　2 通りの検定結果を示したが，オンラインヘルプをみてもわかるように，t.test と同じく，var.equal 引数を持つ。すなわち，aov を使った検定は，var.equal=TRUE の方である。t.test で Welch の方法を勧めるなら，一元配置分散分析でも Welch の方法，つまり var.equal=FALSE をとるべき。そして，そちらが t.test と同じくデフォルトになっているのだから。

● 215 ページ　上から 4 行目
そこで 1 から引きます
　208 ページでも言及したが lower.tail=FALSE を使用すべし

● 217 ページ　上から 15 行目
歯の生長と，ビタミンCの与える効果　→　歯の生長にビタミンCが与える効果

● 221 ページ　上から 7 行目
の間の数値となり　→　の間の数値になり

● 221 ページ　コラム
変数 X と Y それぞれの分散です　→　変数 X と Y それぞれの変動です
一方，Sxy は共分散といいます　→　一方，Sxy は共変動といいます
　下の Sxy の定義を見ればわかるように，Sxy は共変動。だったら，Sx, Sy も変動
　なお，説明中に出てくる「変動」は「ずれ（変動）」と書かれているように，統計学での「変動」とは違うので紛らわしい。

● 224 ページ　上から 3 行目
係数の誤差　→　係数の標準誤差

● 224 ページ　下から 13 行目
帰無仮説「係数がすべて 0 である」
　その次に「回帰式には意味がない」と書いてある方が正確。ただし，ここは単回帰の話なので，回帰係数の検定と同じ意味なので，「係数が 0 である」と同じになる。

● 224 ページ　上から 11 行目
ここでは p 値がほぼ 0 ですので棄却されます
　上に書いたように，単回帰の場合には理論的に，この p 値は回帰係数の検定の p 値と全く同じになる。

● 240 ページ　下から 11 行目
ai,1，ai,2　→　二重添え字を区切るカンマはいらない
　上の方の独立式では余分なカンマはないので，文中では Sx1,x2 のように余分なカンマがある。以後のページでは，軒並み余分なカンマが使われている。

● 250 ページ　下から 4 行目
海外のある大学で　→　アメリカの大学で
　ぼかす必要はない

● 252 ページ　下から 10 行目
含まれていますので　→　含まれているので

● iii ページ　下から 8 行目
新規な知見が　→　新しい知見が
　「新規」という言葉に続くのは「に」とか「の」。「な」はなんとなく変な気がする。

● iii ページ　下から 5 行目
スクリーニング　　???
　スクリーニングとは篩（ふるい）に掛けること。つまり，条件に合うデータをふるい分けて取り出すことでは?
　「すなわちデータの整形が必要となりますが」と続けているので，「クリーニング」でもない。???

● iv ページ　上から 2 行目
それは R では，（中略）意図されています。　→　それは R では，（中略）意図されているからです。

● iv ページ　下から 6 行目
Gihub　→　Github

文章上のこまかい言い回しについては異論もあるでしょうけど...

2012年12月
日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム，コンピュータ・サイエンス，統計学

ダメ出し：R で学ぶデータ・プログラミング入門 ―RStudioを活用する― その5

ダメ出し：R で学ぶデータ・プログラミング入門 ―RStudioを活用する― その4

PVアクセスランキング にほんブログ村

プロフィール

最新記事

バックナンバー

カレンダー

カテゴリー

最新コメント

雨雲の動き

ログイン

goo blog お知らせ

goo blog おすすめ

ダメ出し：R で学ぶデータ・プログラミング入門 ―RStudioを活用する―　その5

ダメ出し：R で学ぶデータ・プログラミング入門 ―RStudioを活用する―　その4

PVアクセスランキングにほんブログ村