2012年5月のブログ記事一覧-裏 RjpWiki

table 関数の使い方が変

2012年05月24日 | ブログラミング

「データセットについてのメモ」の中で，table 関数を使うたびに分析で使う変数とケースの subset を作っている。

少なくとも，変数の subset を毎回作る必要はない。

また，3次元以上の集計表を第3次元ごとに繰り返している。

で、35歳で層別化して出産回数と人工流産回数を見たい場合は、こんな感じでしょうか？

> table(subset(x,subset=age=="<35",select=c(parity, induced)))
      induced
parity 0 1 more
    1 52 17    0
    >1 40 33   26
> table(subset(x,subset=age!="<35",select=c(parity, induced)))
      induced
parity 0 1 more
    1 24 6    0
    >1 27 12   11

これは，xtabs 関数を使うと，何の苦もなく一発で結果が出る。x は既に作成されているデータフレーム。

> xtabs(~parity+induced+age, x)
, , age = <35

      induced
parity 0 1 more
    1 52 17    0
    >1 40 33   26

, , age = >=35

      induced
parity 0 1 more
    1 24 6    0
    >1 27 12   11

頑張ってます。クリックお願いします。

データフレームの rbind

2012年05月24日 | ブログラミング

「data.frameのrbindにはみんな苦労しているようだ」で紹介されている関数

以下のように作ると，コンパクトにまとまった

rbind3 <- function(lst) {
   nr <- sapply(lst, nrow)
   end <- cumsum(nr)
   start <- c(0, end[-length(lst)])+1
   names <- unique(c(sapply(lst, colnames)))
   result <- as.data.frame(matrix(NA, sum(nr), length(names)))
   colnames(result) <- names
   mapply (function(d, s, e) result[s:e, names %in% colnames(d)] <<- d, lst, start, end)
   return(result)
}

実行例

> x <- data.frame(A=1:5, B=5:1, row.names=1:5)
> y <- data.frame(B=1:5, C=5:9, row.names=1:5)
> z <- data.frame(C=3:8, A=8:13, row.names=2:7)
> rbind3(list(x, y, z))
    A B C
1   1 5 NA
2   2 4 NA
3   3 3 NA
4   4 2 NA
5   5 1 NA
6 NA 1 5
7 NA 2 6
8 NA 3 7
9 NA 4 8
10 NA 5 9
11 3 NA 8
12 4 NA 9
13 5 NA 10
14 6 NA 11
15 7 NA 12
16 8 NA 13

頑張ってます。クリックお願いします。

ノンパラメトリックとパラメトリック

2012年05月23日 | 統計学

「推計学のすすめ」メモ 3.1 ゴルファーの腕比べの話 ―平均値の差の検定― (符号検定とt検定) 　でちょっと誤解が

>「対応がある」だとか「等分散である」といったパラメータを設定して行う検定はパラメトリックな方法と呼ばれる。一方、これらを設定しないで行う検定はノンパラメトリックな検定と呼ばれる。

パラメーター（母数）とは，母平均や母分散など，母分布の性状を表すものである

> Rのt検定においてノンパラメトリック手法がデフォルトになっているのもパラメトリックな検定を適用できる範囲が実際はかなり限定されるという背景あっての事だろう。

筆者は，t.test 関数のデフォルトである Welch の方法を「ノンパラメトリック手法」といっているわけで，明らかにおかしい。

> というわけなので私は大丈夫です。

というわけなので，ちょっと統計学の復習が必要でしょう。

頑張ってます。クリックお願いします。

質問が不得意だと自覚できない質問者

2012年05月19日 | 裏 RjpWiki

> 誰にもわからないかどうかもわからないので少し他の人の回答まってみます。
> いろいろあるみたいです。たとえば、札幌R勉強会とかあるみたいですが、情報ご存知のかた、教えてください。

この質問者は，ほかにもかなりとんちんかんな投稿をしている。

無視するのがよいのかなあ

> 非常に面倒かどうかを知りたいのです。

他の質問内容から見ると，あなたにとっては「非常に面倒」なんでしょうねえ。残念！！

頑張ってます。クリックお願いします。

題意に沿えばよいだけだろう

2012年05月18日 | ブログラミング

「Rコードの最適化例：混合正規乱数の発生コード」にあるんだが，なんだかなあ

結局 N1 に従う乱数の個数 n1 が決まれば良いと喝破(なるほど)

rmixnorm3 <- function(n, p1, N1, N2) {
   n1 <- sum(runif(n) < p1)
   c( N1[2]*rnorm(n1) + N1[1], N2[2]*rnorm(n-n1)+N2[1] )
}

rmixnorm4 <- function(n, p1, N1, N2) {
   n1 <- sum(runif(n) < p1)
   c( rnorm(n1, m=N1[1], s=N1[2]), rnorm(n-n1, m=N2[1], s=N2[2]) )
}

何が喝破か。
「確率 0.6 で混合」と書いてあるのに，何が悲しくて「その個数を決める」のに，sum(runif(n) < p1) なんかやるの!!
n*p1 でよいでしょうが（必要なら整数に丸めないといけないけど）。ということで，rmixnorm5 を定義して，ベンチマーク。

rmixnorm5 <- function(n, p1, N1, N2) {
   n1 <- round(n*p1)
   c( rnorm(n1, m=N1[1], s=N1[2]), rnorm(n-n1, m=N2[1], s=N2[2]) )
}

library(rbenchmark)
benchmark(rmixnorm(1e6, 0.4, c(-1,1), c(3,2)), rmixnorm2(1e6, 0.4, c(-1,1), c(3,2)), rmixnorm3(1e6, 0.4, c(-1,1), c(3,2)), rmixnorm4(1e6, 0.4, c(-1,1), c(3,2)), rmixnorm5(1e6, 0.4, c(-1,1), c(3,2)), replications=100)

                                      test replications elapsed relative user.self sys.self
1 rmixnorm(1e+06, 0.4, c(-1, 1), c(3, 2))          100 19.705 2.039644    17.734    2.418
2 rmixnorm2(1e+06, 0.4, c(-1, 1), c(3, 2))          100 22.562 2.335369    20.642    2.233
3 rmixnorm3(1e+06, 0.4, c(-1, 1), c(3, 2))          100 13.959 1.444881    13.148    0.945
4 rmixnorm4(1e+06, 0.4, c(-1, 1), c(3, 2))          100 13.103 1.356278    12.720    0.467
5 rmixnorm5(1e+06, 0.4, c(-1, 1), c(3, 2))          100   9.661 1.000000     9.333    0.392

当然，速いに決まっているわ～な(^_^)

頑張ってます。クリックお願いします。

最適化なんかしなくてよいその5

2012年05月18日 | ブログラミング

これも同じく，本家 Rjpwiki の「Rコード最適化のコツと実例集」にあるのだけど。。。みんな～，騙されるんじゃないぞ～!

> 永続付値（他の環境中の変数への付値）は手間がかかる。遠くの x よりも近くの x
>
> > test1 <- function(){x <- runif(10000)} # 自前の環境中の x へ代入
> > test2 <- function(){x <<- runif(10000)} # 親環境中の x へ代入
> > rm(x); c = 0; for(i in 1:100) c <- c + system.time(test1()); c/100
> [1] 0.0015 0.0000 0.0020 0.0000 0.0000
> > x
> Error: Object "x" not found               # 変数 x は関数終了時に消える
> > x <- numeric(10000); c = 0; for(i in 1:100) c <- c + system.time(test2()); c/100
> [1] 0.0018 0.0000 0.0021 0.0000 0.0000
> > x[1:5]                                  # 当然 x は存在
> [1] 0.02132324 0.36266310 0.50504673 0.89662908 0.67079898
> [1] 0.48 0.03 0.50 0.00 0.00

はいはい。やってみましょうね～～。

> test1 <- function() {x <- runif(1000000)} # 自前の環境中の x へ代入
> test2 <- function() {x <<- runif(1000000)} # 親環境中の x へ代入
> library(rbenchmark)
> benchmark(test1(), test2(), replications=1000)
     test replications elapsed relative user.self sys.self user.child sys.child
1 test1()         1000 28.783 1.000000    27.833    1.282          0         0
2 test2()         1000 29.294 1.017754    28.239    1.256          0         0

どれでも同じ。遠いってどういうこと?
使いたい機能，使わなければならない機能は，何の遠慮もなく使うがよいゾッ!

よって，この珍説もガセと認定!!

頑張ってます。クリックお願いします。

最適化なんかしなくてよいその4

2012年05月18日 | ブログラミング

これも同じく，本家 Rjpwiki の「Rコード最適化のコツと実例集」にあるのだけど。。。みんな～，騙されるんじゃあね～ぞ～!

> 既存変数を再利用(変数の構造・サイズが変わる場合はどうかはわかりません)。環境にやさしい資源リサイクル
>
> > test1 <- function() {x <- runif(1000000); y <- x^2} # 変数 y は無駄
> > system.time(test1())
> [1] 0.62 0.04 0.67 0.00 0.00
> > test2 <- function() {x <- runif(1000000); x <- x^2} # 変数 x を再利用
> > system.time(test2())
> [1] 0.48 0.03 0.50 0.00 0.00

この場合は，そもそも代入する必要がないのだから，以下も含めてベンチマーク・テストしてみよう

test3 <- function() {x <- runif(1000000); x^2}

> library(rbenchmark)
> benchmark(test1(), test2(), test3(), replications=1000)
     test replications elapsed relative user.self sys.self user.child sys.child
1 test1()         1000 37.084 1.000000    30.681    6.671          0         0
2 test2()         1000 37.149 1.001753    30.557    6.778          0         0
3 test3()         1000 37.144 1.001618    30.558    6.804          0         0

どれでも同じ。「資源はたくさんある」ので，たかが 1000000 個の要素を持つ numeric 変数を新たに使っても，R にとっては痛くもかゆくもない。

よって，この珍説もガセと認定!!

頑張ってます。クリックお願いします。

最適化なんかしなくてよいその3

2012年05月18日 | ブログラミング

本家 Rjpwiki の「Rコード最適化のコツと実例集」にあるのだけど。。。みんな～，騙されるんじゃないぞ～!

> 変数初期化のコツ。同一のベクトル、配列変数を全要素 0 で繰返し初期化する(良くあること)場合、既存の同じサイズの変数に 0 を掛ければ済む。x-x でも同じこと(少し早くなるとのコメント)。全要素 1 で初期化したければ、0*x + 1 とする。0 は無ならず
> 確かに，y <- 0*x は速いですね。y <- x-x の方がもう少しだけ速いようです。 -- 2004-06-23 (水) 10:41:05
> 1で初期化する場合は0*x+1よりx^0が高速。さらに論理値で良ければx==xがもっと高速 -- aaa? 2009-05-01 (金) 06:31:21

ガセ　　全部，ウソッパチ

> x <- runif(100000000)

> gc();gc();system.time(y <- 0*x)
   ユーザ   システム       経過
     0.223      0.216      0.437

> gc();gc();system.time(y <- x-x)       # 0*x より速くなることもない
   ユーザ   システム       経過
     0.229      0.220      0.447

奇をてらう必要はない。素直にやるのが一番速い。 <-- 四則演算も結構高くつく

> gc();gc();system.time(y <- numeric(length(x)))
   ユーザ   システム       経過
     0.117      0.223      0.338

===============================================

> gc();gc();system.time(y <- 0*x+1)
   ユーザ   システム       経過
     0.477      0.433      0.906

> gc();gc();system.time(y <- x^0)     # 全然，速くない
   ユーザ   システム       経過
     0.613      0.216      0.825

> gc();gc();system.time(y <- x==x)    # 全然，速くない
   ユーザ   システム       経過
     0.629      0.112      0.739

奇をてらう必要はない。素直にやるのが一番速い。

> gc();gc();system.time(y <- numeric(length(x))+1)
   ユーザ   システム       経過
     0.370      0.443      0.809

昔は本当だったトリビアも，今ではガセになりはてているものもある。
マシンやコンパイラの違いによることもあるけど。
それにしても，毎度いうことだが，これだけの計算量で違いは1秒にも満たないのだから，あれこれ小細工を弄する必要は全くないと言っていいだろう。

頑張ってます。クリックお願いします。

最適化なんかしなくてよいその2

2012年05月17日 | ブログラミング

> x <- runif(100000000)
> y <- runif(100000000)
> z <- runif(100000000)
> ## 最初のものより二番目の方が速い
> # 割り算2つよりは掛け算と割り算一つずつが得
> system.time(x/y/z)
   ユーザ   システム       経過
     1.719      0.420      2.129
> system.time(x/(y*z))
   ユーザ   システム       経過
     1.116      0.423      1.533
> # べき乗は高くつく
> system.time(1.1*x^3+2.2*x^2+3.3*x+4.4)
   ユーザ   システム       経過
     5.338      1.964      7.270
> system.time(((1.1*x+2.2)*x+3.3)*x+4.4)
   ユーザ   システム       経過
     1.442      1.437      2.863
> # べき乗は高くつく
> system.time(x^3+2*x^2+3*x+4)
   ユーザ   システム       経過
     5.014      1.666      6.649
> system.time(((x+2)*x+3)*x+4)
   ユーザ   システム       経過
     1.209      1.197      2.393
> # べき乗は高くつく
> system.time(x^y)
   ユーザ   システム       経過
     8.824      0.229      9.018
> system.time(exp(y*log(x)))
   ユーザ   システム       経過
     3.492      0.647      4.120
> # 前もって定数 log(10) を計算しておいても何の得もない
> system.time(10^y)
   ユーザ   システム       経過
     9.068      0.220      9.253
> system.time(exp(y*log(10)))
   ユーザ   システム       経過
     1.671      0.426      2.087
> system.time({a <- log(10); exp(y*a)})
   ユーザ   システム       経過
     1.670      0.425      2.085

頑張ってます。クリックお願いします。

最適化なんかしなくてよい

2012年05月16日 | ブログラミング

いくつかの場合について実測してみた

> y <- runif(100000000)
> # 2倍するのと足し算の差はない
> system.time(2*y)
   ユーザ   システム       経過
     0.458      0.594      1.054
> system.time(y+y)
   ユーザ   システム       経過
     0.435      0.551      0.979
> # 2乗と掛け算の差はない
> system.time(y^2)
   ユーザ   システム       経過
     0.443      0.535      0.971
> system.time(y*y)
   ユーザ   システム       経過
     0.438      0.528      0.958
> # 3乗と2回の掛け算なら，2回の掛け算の方が速い
> system.time(y^3)
   ユーザ   システム       経過
     4.084      0.549      4.611
> system.time(y*y*y)
   ユーザ   システム       経過
     1.228      1.245     10.646
> # 2進数で正確に表せる数ならば，割り算も掛け算も差はない
> system.time(y/4)
   ユーザ   システム       経過
     0.448      0.533      0.972
> system.time(y*0.25)
   ユーザ   システム       経過
     0.442      0.527      0.961
> # 2進数で正確に表せない数ならば，掛け算の方が速い
> system.time(y/10)
   ユーザ   システム       経過
     1.024      0.516      1.529
> system.time(y*0.1)
   ユーザ   システム       経過
     0.442      0.524      0.958
> # 1/2乗と sqrt 関数では，sqrt の方が速い
> system.time(y^0.5)
   ユーザ   システム       経過
     1.234      0.509      1.731
> system.time(sqrt(y))
   ユーザ   システム       経過
     0.978      0.512      1.479
> # 整数倍と実数倍では，実数倍の方が速い
> system.time(123L*y)
   ユーザ   システム       経過
     0.560      0.516      1.068
> system.time(123*y)
   ユーザ   システム       経過
     0.441      0.536      0.968
> # でもねえ，100000000 回の演算でこれだけしか違わないのだから，どっちでもよい

頑張ってます。クリックお願いします。

プログラムの最適化をするときには抜け目なく

2012年05月16日 | ブログラミング

どこぞにやらあるプログラム。プログラムの最適化（高速度化）を目指した結果の報告。

num_steps <- 10000000
step <- 1.0 / num_steps
summ <- 0
for (i in 1:num_steps) {
x <- (i-0.5) * step
summ <- summ + 4.0 / (1.0 + x * x)
}
PI <- step * summ
print(PI)

が遅いので，次のようにしたら，驚異的に速かった。分散処理なんかよりも速かったとのこと。

そうでしょう。そうでしょう。

num_steps <- 1:10000000
step <- 1.0 / 10000000
x <- (num_steps-0.5) * step
PI <- sum((4.0 / (1.0 + x * x)) * step)
print(PI)

でもちょっと，見落としているところがあった。

num_steps <- 1:10000000
step <- 1.0 / 10000000
x <- (num_steps-0.5) * step
PI <- sum(4.0 / (1.0 + x * x)) * step
print(PI)

のようにすると，25%速くなる。

sum((4.0 / (1.0 + x * x)) * step) では，* step は全要素について計算している。しかし，定数計算なので，sum した結果に 1 度だけ掛ければよいというのは，よくいわれること。

ちなみに x * x は x ^2 より速いだろうという思い込みであろうが，R においては x * x と x ^ 2 では，実行速度の差はない。より直感的で分かりやすい書き方をする方がよい。

また，余分な括弧や，実数値に .0 を付けるというのも，他の言語の仕様を引きずっているなあ。R では，小数点のつかない数も実数である（逆に，整数であるときに 3L のように接尾辞 L を付けなくてはならないが）。よぶんなプログラム要素があると，プログラムを読む妨げになる。

頑張ってます。クリックお願いします。

誤解を生じるグラフ

2012年05月16日 | 統計学

http://r4stats.com/2012/05/09/beginning-of-the-end/ にあるグラフ。

何となく受けのよい ggplot によるもので，R をひいきする身としては好ましいグラフかも知れないが，統計グラフとしてみればとても合格点の付けられるようなものではない。

ggplot のデフォルトで，グラフのバックグラウンドが薄い灰色，グリッド線が白ということが原因だが，どこに y = 0 の軸があるか見にくくなっている。せめて，目盛り数値 0 でも描かれていると注意するのだろうが，それもない。特に右の方で y = 0 より下の部分が下駄履きになっており，R が実際より大きなものに見えてしまう。この部分を除いたものを添付するので，比較してみるとよい。（ggplot は使いたくないので，お絵かきソフトでその部分をカットしたものを使う）

また，科学にお化粧はいらない。最後に，素の R で描いたグラフを示しておく。これが一番明確。

★ バックグラウンドが灰色などとは不適切きわまりない。

★ グラフにグリッド線などは不要。

★ height が width より異様に大きいのもデータの誇張に一役買っているようだ。

頑張ってます。クリックお願いします。

決めうちしないプログラムその2

2012年05月15日 | ブログラミング

どこぞやらにあるプログラム。指数分布とポアソン分布の関係を示そうとするシミュレーション・プログラムだ。

毎回1個ずつ乱数を発生させるのはもったいない。かといって，毎回何個発生させるのがベストなのか。取りあえずほどほどの個数を発生させておいて，足りなければ追加する。まとめて発生させるメリットと，いろいろな余分な操作のデメリットのせめぎ合いで，良さそうな所を見付ける。

オリジナルはこんな感じのプログラム

VisitorCounter <- function(lambda)
{
   counter <- 0
   time.arrival <- rexp(1, rate = lambda)
   while (time.arrival < 1) {
       counter <- counter + 1
       time.arrival <- time.arrival + rexp(1, rate = lambda)
   }
   return(counter)
}
lambda <- 5
N <- 10^5
x <- sapply(1:N, function(i) {VisitorCounter(lambda)})
barplot(rbind(table(x)/N, dpois(0:max(x), lambda)),
   col = c("violetred1", "slateblue4"),
   legend.text = c("Simulation", "Theoretical"),
   args.legend = list(x = "topright"),
   beside = TRUE)

書き換えると 5 倍弱の速さのプログラムになる

VisitorCounter2 <- function(N, lambda)
{
   result <- integer(N)
   repo <- matrix(rexp(15*N, rate = lambda), ncol=N)
   colsum <- colSums(repo)
   for (i in 1:N) {
       x <- repo[, i]
       if (colsum[i] < 1) {
           repeat {
               x <- c(x, rexp(10, rate = lambda))
               if (sum(x) > 1) break
           }
       }
       result[i] <- sum(cumsum(x) <= 1)
   }
   return(result)
}
lambda <- 5
N <- 10^5
x <- VisitorCounter2(N, lambda)
barplot(rbind(table(factor(x, levels=0:max(x)))/N, dpois(0:max(x), lambda)),
   col = c("violetred1", "slateblue4"),
   legend.text = c("Simulation", "Theoretical"),
   args.legend = list(x = "topright"),
   beside = TRUE)

頑張ってます。クリックお願いします。

3次元以上の配列における独立性の検定

2012年05月09日 | ブログラミング

だいぶ前に見つけて，忘れてしまっていたのを再発見したので記録。

> x <- data.frame(a=sample(3, 100, rep=T), b=sample(2, 100, rep=T), c=sample(3, 100, rep=T))
> summary(xtabs(~., data=x))
Call: xtabs(formula = ~., data = x)
Number of cases in table: 100
Number of factors: 3
Test for independence of all factors:
Chisq = 11.541, df = 12, p-value = 0.4832
Chi-squared approximation may be incorrect

頑張ってます。クリックお願いします。

記事一覧 | 画像一覧 | フォロワー一覧 | フォトチャンネル一覧

PVアクセスランキングにほんブログ村

プロフィール

フォロー中フォローするフォローする

バックナンバー

2025年04月

2025年03月

2025年02月

2025年01月

2024年12月

2024年11月

2024年10月

2024年09月

2024年08月

2024年07月

2024年06月

2024年05月

2024年04月

2024年03月

2024年02月

2024年01月

2023年12月

2023年11月

2023年10月

2023年09月

2023年08月

2023年07月

2023年06月

2023年05月

2023年04月

2023年03月

2023年02月

2023年01月

2022年12月

2022年11月

2022年10月

2022年09月

2022年08月

2022年07月

2022年06月

2022年05月

2022年04月

2022年03月

2022年02月

2022年01月

2021年12月

2021年11月

2021年10月

2021年09月

2021年08月

2021年07月

2021年06月

2021年05月

2021年04月

2021年03月

2021年02月

2021年01月

2020年12月

2020年11月

2020年10月

2020年09月

2020年08月

2020年07月

2020年06月

2020年05月

2020年04月

2020年03月

2020年02月

2020年01月

2019年12月

2019年11月

2019年09月

2019年08月

2019年07月

2019年06月

2019年04月

2018年12月

2018年09月

2018年08月

2018年07月

2018年06月

2018年05月

2018年03月

2018年02月

2018年01月

2017年12月

2017年11月

2017年10月

2017年09月

2017年08月

2017年07月

2017年06月

2017年05月

2017年04月

2017年03月

2017年02月

2017年01月

2016年12月

2016年11月

2016年10月

2016年09月

2016年08月

2016年07月

2016年06月

2016年05月

2016年04月

2016年03月

2016年02月

2016年01月

2015年12月

2015年11月

2015年10月

2015年09月

2015年08月

2015年07月

2015年06月

2015年05月

2015年04月

2015年03月

2015年02月

2015年01月

2014年12月

2014年11月

2014年10月

2014年09月

2014年08月

2014年07月

2014年06月

2014年05月

2014年04月

2014年03月

2014年02月

2014年01月

2013年12月

2013年11月

2013年10月

2013年09月

2013年08月

2013年07月

2013年06月

2013年05月

2013年04月

2013年03月

2013年02月

2013年01月

2012年12月

2012年11月

2012年10月

2012年09月

2012年08月

2012年07月

2012年06月

2012年05月

2012年04月

2012年03月

2012年02月

2012年01月

2011年12月

2011年11月

2011年10月

2011年09月

2011年07月

2011年06月

2011年05月

2011年04月

2011年03月

2011年02月

2011年01月

2010年09月

2010年08月

2010年07月

カレンダー

2012年5月
日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

前月

次月

goo blog お知らせ

	【PR】プロ直伝・dポイントをザクザクためる術
	【PR】安い＆大量の「訳あり商品」がヤバい!
	【コメント募集中】「食パン」に何をつけて食べますか？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』