統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計のコツのこつ(28)

2016-12-22 18:01:15 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)に紹介されている内容をもとに書いています。
 
 
 
前回に引き続き「第2章 分析の準備」(6ページ)の内容に関連して beeswarm(蜂群図:蜂の群れ)をご紹介しましょう。
それでは、
データ解析環境「R」で beeswarm を作図してみましょう。
「R」での方法
まず、
はじめにプログラム・パッケージ「beeswarm」をインストールしておきましょう。
そして、
前回(図1:年齢と性別)のデータを使ってやってみましょう。
 
***
library(beeswarm)
boxplot(Age~ Gender, ylim = c(30, 90), main = "swarm")
beeswarm(Age~ Gender, pch = 16, method = "swarm", add = TRUE)
***
 
出力結果は図1の様になります。
 
図1"箱ひげ図" と"bee swarm"
プロット(点)の配置方法は、
method = "center" , "hex" , "square" で変えることが出来ます。
 
次の様な乱数を発生させて試してみて下さい。
 
***
x <- rnorm(100, 25, 10)  # 50個の乱数(平均値 25、標準偏差 10)
y <- rnorm(100, 30, 15)  # 50個の乱数(平均値 30、標準偏差 15)
 # 色々な beeswarm を描いてみましょう。
beeswarm(list(x, y), pch = 16, method = "swarm", main = "swarm")
beeswarm(list(x, y), pch = 16, method = "center", main = "center")
beeswarm(list(x, y), pch = 16, method = "hex", main = "hex")
beeswarm(list(x, y), pch = 16, method = "square", main = "square")
***
 
それでは、
次回は「中央値の95%信頼区間」を表す "Notch Box Plot" をご紹介します。
「すぐに役立つ統計のコツ」(第2章:9ページ)をご参照下さい。
 
情報統計研究所はここから!

統計のコツのこつ(27)

2016-12-08 17:42:03 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)に紹介されている内容を補足するためのものです。
 
 
前回に引き続き「第2章 分析の準備」(6ページ)を開いて下さい。
医学関連の学会や論文でよく見かけるものに、Plotmeans(平均値±標準偏差又は標準誤差)、Boxplot(箱ひげ図)、Error range with bar graph(エラーバー付き棒グラフ)など色々なグラフ表現があります。
例えば、
図1は HbA1c を前・後で比較したものですが、エラーが標準偏差(sd)なのか標準誤差(se)なのかが分かりませんので、図中に記載しておくのが良いと思います。
 
図1HbA1c 比較の例
一方、
図2は変化率を表したもので、マイナス方向に標準誤差(se)の線を伸ばして、変化率の違いを強調しています。
 
図2 変化率の表現
 
一方、
データの分布を直接プロットして、データのバラツキの様子を示すものに「stripcart」(ストリップチャート)と言われるものがあります。
「すぐに役立つ統計のコツ」ではご紹介していませんが、少数データの表現に適していますので、その作成方法をご紹介しておきましょう。
作成は、データ解析環境「R」での方法です。
「R Consol」に次のコマンドを書いておき、
***
dat<- read.delim("clipboard", header=T)
***
 
例えば、
図1の様なExcelのデータ(項目名を含む)をコピーし、実行すれば「R」に読み込むことが出来ます。
 
図1 性別と年齢のデータ
 
 
***
head(dat) # データの確認
attach(dat)
Age_m<- tapply(Age, Gender, mean) # 年齢の平均値
Age_s<- tapply(Age, Gender, sd)    # 年齢の標準偏差
horiz<- c(1, 2)+0.2
stripchart(Age~ Gender, method="jitter", vert=T, pch=16, ylim=c(30, 90), xlab="Gender", col=c(2, 3))
points(horiz, Age_m, pch=16)
arrows(horiz, Age_m- Age_s, horiz, Age_m+ Age_s, code=3, angle=90, length=0.1) # 平均値±標準偏差の描画
detach(dat)
***
 
実行結果は図2の様になります。
 
図2 ストリップチャート
 
 

次回の予定は beeswarm(蜂群図:蜂の群れ)のご紹介です。
 
情報統計研究所はここから!
 

 

統計のコツのこつ(26)

2016-12-01 12:52:32 | 日記・エッセイ・コラム
このブログは「すぐに役立つ統計のコツ」(オーム社)に紹介されている内容を補足すためのものです。
 
 
一応、前号までで主な内容の補足は終わりました。
今回からは、チョット細かいけど役立つと思われるコツをご紹介したいと思います。
例えば、
本書の「第2章 分析の準備」(6ページ)の 図2.3で BoxPlotを紹介していますが、株価利用の場合、中央値の描画は「Excel2013」でどうやって行えば良いのでしょうか。
株価を利用した BoxPlotの描画をやってみましょう!
 
データの配置が図1であったとします。
図1 データの配置
 
選択→[A1:B5](緑色部分)→挿入→グラフ(図2の赤印をクリック)
 
図2 グラフの選択
 
→すべてのグラフ→株価→株価チャート(図3)→OK
 
図3 株価チャート
 
本書(図 2.3)が得られますので、この Box に中央値を描き入れることになります。その方法は、グラフエリアに第2軸を作って"中央値"を描画することになり、次のようにすれば良いでしょう。
 
グラフエリアの空白部分を右クリック→データ選択→追加 系列名[A6]、系列値[B6] (図4)→OK→OK
 
図4 中央値の追加
 
グラフエリアを選択したままで→右クリック→グラフエリアの書式設定→グラフオプション(▼)→系列"中心値"→系列のオプション ◎線なし(図5)
 
図5 系列のオプション
マーカー→マーカーのオプション→ ◎組み込み 種類[-]、サイズ[10]→ ◎塗りつぶし(単色) 色[白]、枠線 ◎線なし(図6)
 
図6 マーカーのオプション
 
系列のオプション ◎第2軸(上/右側) →(図7)
 
図7 系列のオプション
 
グラフエリアの第2軸を右クリック→軸の書式設定→軸のオプション 最大値[80] 目盛間隔 目盛[10]
 
以上で、
中央値を描き込むことが出来ました。第2軸が中央値ですので、ここを右クリックして→「削除」すれば見栄えが良くなります。
手数が多くて大変そうですが、すべてクリック操作のみで出来ますので思ったより簡単かと思います。複数の変数の時も同じ要領で出来ます。
それでは又。
 
情報統計研究所はここから!