こんな風なcsvファイルがあったとする。
hoge, 2
fuga, 3
piyo, 1
これは文章中にhogeが2回、fugaが3回、piyoが1回出てきたというようなものを表わしている。ここで、このcsvの情報から単語 の登場回数の密度推定をやって欲しいとか言われたとする(ex:自然言語処理特論)。この情報から密度推定をしようと思うと、Rなら次のようなベクトルが 必要になる。
c(hoge, hoge, fuga, fuga, fuga, piyo)これを,こんな風にしている
unlist(apply(d, 1, function(x){rep(x[1], x[2])}), use.names = FALSE)
もっと簡単な方法がある。以下のようにすればよい。
> rep(as.character(d$word), d$count)
[1] "hoge" "hoge" "fuga" "fuga" "fuga" "piyo"