裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

ああ,やっとまともな道を探し当てたんだねえ

2010年07月15日 | 裏 RjpWiki
よかった,よかった。
とはいっても,私は,答えを提示できないんだ。ごめんね。

英語でテキストマイニングをする方法。語の頻度,形態素について †

ピースケ? (2010-04-29 (木) 17:51:37)

英語でテキストマイニングをする方法を探しています。。語の頻度,形態素について分析するパッケージはありますでしょうか。


−−−−−コメント

# ※コメントありがとうございます。日本語は,書籍が見かけたのですが,意外に英語のものがないです。※情報過多の時代なので,良質な情報をヒットさせることが,難しい時代ですね。 -- ピースケ? 2010-04-29 (木) 22:01:30

おやまあ。あなたは,英語の方が得意なんだ。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

こまったさん

2010年07月15日 | 裏 RjpWiki
注意書きも読まずに投稿するんだなあ。すぐ上に書いてあるのに。ここは,「R 掲示板」だってばさ。

最もいい方法を探すより,取りあえず自分にもできる方法を探す方が良いでしょう。教科書もいっぱい?出てるんだから,まずは本に書いてある方法をやってみれば?

回答を期待する記事は原則 質問コーナー Q&A にお願いします。「R 掲示板」はそれ以外の本来の(長めの)コメント専用にすることを提案したいと思います。


Rで英語のテキストマイニングを行いたいのですが,もっともいい方法はないでしょうか †

ピースケ? (2010-04-28 (水) 23:27:05)

Rで英語のテキストマイニングをしたいのですが,もっともいい方法はなんでしょう? 英語の論文などを分背kしたいです。


−−−−−コメント

ははは[E:cat]
その後,消去されたけど,以下のような経過があったんだ。証拠隠滅するには,ちゃんとやっておかないとね。未熟。

**Rで英語のテキストマイニングを行いたいのですが,もっともいい方法はないでしょうか [#f243b741] >[[ピースケ]] (2010-04-28 (水) 23:27:05)

Rで英語のテキストマイニングをしたいのですが,もっともいい方法はなんでしょう? 英語の論文などを分背kしたいです。

- その前に, このページを「分背k」することを勧めます. -- &new{2010-04-29 (木) 11:39:23};
- 「分背k(分析)」してみましたが(笑),的確なものがないですね。英語の形態素解析が行えるパッケージはあるのでしょうか。※知らない人には,調べようがないです。 -- [[ピースケ]] &new{2010-04-29 (木) 16:20:09};
- ここ質問する場所じゃないってことですよ。 -- &new{2010-04-29 (木) 16:58:51};
- 誠に失礼しました。 -- [[ピースケ]] &new{2010-04-29 (木) 17:49:50}; -

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

言うに事欠いて,そういう言いぐさはないだろ

2010年07月15日 | 裏 RjpWiki
- すみません.素人なもので.col.regions = trellis.par.get("regions")$col) どのように修正すればいいのか.よろしくご教授お願いします. -- [[orange]] &new{2010-04-26 (月) 20:35:42};

どうしようもないなあ
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

質問者自体よくわかっているんだろうか?

2010年07月15日 | 裏 RjpWiki
多次元項目反応理論のパッケージ † totoro? (2010-04-24 (土) 00:33:22)

Rで多次元項目反応理論(多次元IRT)または多次元カテゴリカル因子分析をしたいのですが、パッケージはありますでしょうか?

解析例などを示しているページがありましたら、教えていただけると幸いです。


久しぶりだが。
「多次元カテゴリカル因子分析」って,いったいなんなのさ。
ググっても出てこないでしょう。一般的でない用語,概念で質問しても,そんなものに回答はないでしょう。

まあ,えげつなく言えば,「あほか?」ということかな。

そもそも,因子分析なら多次元は当たり前だと思うし(単変量の因子分析があり得るか?)。

多次元を除いて「項目反応理論」や,「カテゴリカル因子分析」をまずは検索・探索することを勧めておこう。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ctable があると,jpg, png が描けない

2010年07月15日 | ブログラミング
LaTeX で,ctable があると,jpg, png が描けない
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

空白を含む文字列を描けない R は,馬鹿だ

2010年07月15日 | ブログラミング
plot(1:10); text(5, 5, "R は,馬鹿だ") は描けない。

plot(1:10); text(5, 5, "R_は,馬鹿だ") は描けるのに。直しもしない。

いくら free ware といっても,そうとう恥ずかしい状況だ。

え,なんで,私が直さなきゃならないの?直す能力なんてないんだから,しょうがないじゃない。

−−−−−コメント(なかま)
IPAフォントを使って下さい. この現象はヒラギノのOTFでしか発生しません. IPAフォント(現在はOTF)はOSXの10.6.2以降は登録可能です. 10.6以降フォント周りが結構変わったので, 本来ならば新しいAPIに書き換えれば問題ないのかもしれませんが(10.6では非推奨のAPIを使っています), 欧文フォントの方で問題(Type1とか)が出る可能性が非常に高いので, R財団のサポートメンバーの母国語の比率を鑑み先送りすることにしました.

−−−−−コメント(わたし)
「ヒラギノのOTFでしか発生しません」へー,そうですか。ヒラギノって,よほど特殊で,考慮する価値もないってことですか。ならいいよ。べつにIPAフォント使おうと思わないから,「R はしょうもない奴だ」と思い続けることにしよう。ほんとうに,ばかだ。

−−−−−コメント(okumura)
Osakaでもいいんですね text(5, 5, "R は",family="Osaka")

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ks.test の使い方

2010年07月15日 | ブログラミング
データの正規性を検定するとき,ks.test の引数はどのようにしたらよいのだろうか。

x <- c(2, 3, 5.1, 7, 1, 9, 3.4, 5.4, 5.9)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))
ks.test(scale(x), "pnorm")

どちらも同じ結果になる

> x <- c(2, 3, 5.1, 7, 1, 9, 3.4, 5.4, 5.9)
> ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

One-sample Kolmogorov-Smirnov test

data: x
D = 0.1327, p-value = 0.9906
alternative hypothesis: two-sided

> ks.test(scale(x), "pnorm")

One-sample Kolmogorov-Smirnov test

data: scale(x)
D = 0.1327, p-value = 0.9906
alternative hypothesis: two-sided
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

日本語の変数名

2010年07月15日 | 裏 RjpWiki
そんなもの,使えなくったって何の不都合もないだろう。しかも,Windows の場合のようだし。

* ↓carパッケージ利用で、Anova(lm(抑うつ~完全主義*失敗経験)) のように日本語変数名で実行するとエラーとなります。それを指してのことでしょう。2.10からエラーです。 -- OGA? 2010-01-19 (火) 22:12:06
* 2要因分散分析のエラーとは何でしょうか? -- 2010-01-19 (火) 15:03:47
* 2要因分散分析のエラーは,改善されるのでしょうか -- 2010-01-19 (火) 00:08:58
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

data.frame を html ファイルとして書き出す

2010年07月15日 | ブログラミング
library(xtable)
print(xtable(iris[1:10, 1:4]), type="html")

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ダミー変数のベースラインの係数表示

2010年07月15日 | ブログラミング
あまり利用価値がないけど,初心者に説明するときには役に立つ?

> ans <- lm(Petal.Width~Petal.Length+Species, iris)
> dummy.coef(ans)
Full coefficients are

(Intercept): -0.09082938
Petal.Length: 0.2303895
Species: setosa versicolor virginica
0.0000000 0.4353703 0.8377071
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

馬鹿が多くて困ります

2010年07月15日 | 裏 RjpWiki
久々に,初心者の味方の馬鹿が出てきて,困ります
念のために言っておきますが,私は「初心者が馬鹿だ」なんて,一度も言ったことはありません。
馬鹿は初心者にもいますけど,中級者にも上級者にもいます。
私も,馬鹿の範疇に入ることもあります(いつも馬鹿だとは思いますし)(^_^;)そんなことは,わかっています。わかっていながら,言ってるんです。
わかっていないのが,馬鹿なのかなあと。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Mac OS X における Excel ファイルのエンコーディング(2)

2010年07月15日 | ブログラミング
ファイルのエンコーディングは間違いなく cp932
このファイルから,正しく内容を読み出すには,encoding 引数ではなく,fileEncoding 引数で cp932 を指定するのだ。。。。やれやれ
R-2.9.0 から追加された引数のようだ

> read.csv("windows.dat", fileEncoding="cp932")
年 日平均気温 日最高気温 最低気温 降水量 湿度 日照時間
1 1897 12.5 17.7 8.3 1384.6 72 NA
2 1898 13.3 18.5 8.9 1099.1 73 NA
3 1899 13.0 18.5 8.7 1097.0 73 2322.2
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Mac OS X における Excel ファイルのエンコーディング

2010年07月15日 | ブログラミング
Windows で作られた日本語を含むエクセルファイルを,インターネットからダウンロードして,その内容を R に取り込むには何通りかあるが,そのうちの以下のような方法がうまくいかない(ことがある?)ことについて,コメント。

Windows の Excel ファイルを,CSV なり,タブ区切りなりでテキストファイルとして保存しても,R で読み込むことができない。エンコーディングは cp932 でも utf-8 でもない「日本語 MacOS」というもの。そんなエンコーディングを指定するキーワードは R にはない。

「日本語 Mac OS」を扱えるテキストエディタで読み込んで,標準の utf-8 で再保存すれば,やっと読み込める。

解決した。この後の記事を参照 fileEncoding 引数を使うのだ。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

整数値を取る変数の度数分布表

2010年07月15日 | ブログラミング
一部,出現しないカテゴリーがある場合,単に table(foo) としたのでは,度数が 0 のカテゴリーは,集計結果に含まれない。それを,うまくやるためには, factor を使う。

> k <- c(10, 12, 7, 8, 5, 12, 12, 4, 8, 6, 12, 11, 12, 9, 14, 6, 10,
+ 6, 4, 2, 15, 6, 13, 4, 9, 18, 7, 14, 6, 10, 3, 10, 19, 16, 6,
+ 12, 4, 9, 8, 4, 6, 22, 11, 10, 8, 3, 5, 4, 13, 3, 7, 11, 14)
> table(k)
k
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 19 22
1 3 6 2 7 3 4 3 5 3 6 2 3 1 1 1 1 1
> table(factor(k, levels=min(k):max(k)))

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
1 3 6 2 7 3 4 3 5 3 6 2 3 1 1 0 1 1 0 0 1
> table(factor(k, levels=0:25))

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
0 0 1 3 6 2 7 3 4 3 5 3 6 2 3 1 1 0 1 1 0 0 1 0 0 0

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

R 2.10.0 での help コマンド

2010年07月15日 | ブログラミング
関数の仕様が変わったようで,今まで通り ? foo などとやると,エラーメッセージをもらうことになる。

> ? help
警告メッセージ:
In help("help", package = NULL) :
htmhelp=TRUEは推奨されません: help_type="html"を使ってください


.Rprofile で,options(help_type="html") などとしておくとよいかな
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

PVアクセスランキング にほんブログ村

PVアクセスランキング にほんブログ村