統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計技術 第Ⅲ部:第1章-3 Histogram(データの分布)

2022-04-22 10:00:39 | 日記・エッセイ・コラム

統計技術 第Ⅲ部 Free Online Caluclator (事例集)

第1章-3 Histogram (データの分布)
データの分布(姿)をみてみよう.

● Free Statistics Software (Calculator) - Web-enabled scientific services & applications 
Wessa.net  site のTop page から、
  https://www.wessa.net

「Descritve Statistics」→「Histgram」を選択.

「Compute」をクリック

図1 出力結果(Histgram)

分布は少し左に偏って右に裾を引いている.

視覚的に、正規分布かどうかが分かったので、正規性の検定をしてみよう.
ここでの方法は、次によりおこなうことが出来る。

「Statistical Dstributions」→「Skewness/Kurtosis」

「Compute」をクリック

出力結果:
***
Skewness(歪度) and Kurtosis(尖度) Test
> agostino
 D'Agostino skewness test(ダゴスティーナ)
 data:  x
 skew = 0.57707, z = 2.77943, p-value = 0.005445
 alternative hypothesis: data have a skewness(歪度がある)

> anscombe
 Anscombe-Glynn kurtosis test(アンスコム)
 data:  x
 kurt = 2.60623, z = -0.96443, p-value = 0.3348
 alternative hypothesis: kurtosis is not equal to 3(尖度は3ではない)
***

正規分布の場合、Skewness(歪度) は「0」に、 Kurtosis(尖度) は「3」になるので、
その判断基準として、
歪度(skewness)の絶対値が 0.5以内で、尖度(kurtosis)が 2.5~3.5 の間であれば、正規分布とみて良いだろう.

Skewness(歪度)は、
 正のとき→右に長く裾を引く.負のとき→左に長く裾を引く

Kurtosis(尖度 )は、
 3 であれば→正規分布と似た尖り、 
 3以上であれば →正規分布より尖る、
 3以下であれば →正規分布よりなだらか

となる.
よって、この例題では図1のヒストグラムのように正規分布とは言えないが、正規分布より、ややなだらかと推定される.

この例題が無視できないほど、正規分布からかけ離れていると判断したなら、何らかの方法で正規分布に近づけるための変換をおこなうことがある.
変換方法の1つに「ボックス=コックス変換」がある.
この変換は、図3の式で表される.

図3 Box-Cox 変換


ラムダによってYデータを変換し、ラムダ=0 の時は ln(Y) の自然対数が適用される.

変換されたサンプルの歪度と尖度をみてみよう.

「Statistical Dstributions」→「Box-Cox Normality Plot」

「Compute」をクリック

出力結果:
***
図3 Box-Cox 変換後のヒストグラム

図4 Box-Cox 変換後のQ-Q Plot



統計技術 第Ⅲ部:第1章-2 Variability(分散の記述)

2022-04-15 15:15:49 | 日記・エッセイ・コラム

統計技術 第Ⅲ部 Free Online Caluclator (事例集)
第1章-2  Variability(分散の記述)

 データを代表する統計量には次のようなものがある.
例題をそのまま使って体験してみよう・・、実際の分析に当たってはサイトの使用方法に従って実行されたい.

● Free Statistics Software (Calculator) - Web-enabled scientific services & applications 
Wessa.net  site のTop page から、
 https://www.wessa.net

「Descritve Statistics」→「Variability」を選択.

「Compute」をクリック

図1 出力結果(代表的統計量)


Excel では、
図2 出力結果(代表的統計量)

その他の代表的な統計量として四分位範囲(Interquartile Difference:IQR) は、
参照URL:
---------------------
https://supernova.wessa.net/new/freestatistics/org/blog/index.php        v=date/2016/Nov/18/t14794704531o8gvf7xrven3gc.htm/&submit=Print
---------------------

(1) Interquartile Difference (Weighted Average at Xnp)→180
(2) Interquartile Difference (Weighted Average at X(n+1)p)→181.5
(3) Interquartile Difference (Empirical Distribution Function)→180
(4) Interquartile Difference (Empirical Distribution Function - Averaging)→181

ここで、Excel での方法:
例題での、n=144, p1=0.25, p2=0.75 であるので、

(1)の「Weighted Average at Xnp」 は、小さい順に並べたデータから数えて、
 25% tile = n* p1 = 144* 0.25 = 36    番目の値は→180
 75% tile = n* p2 = 144* 0.75 = 108 番目の値は→360
 IQR = 360 - 180 = 180

図3 昇順順位での36番目(黄色セル)・37番目(緑色セル)と108番目・109番目(緑色セル)のデータ

(2)の「Weighted Average at X(n+1)p」は、
 25% tile = (n+1)* p1 = 145* 0.25 =   36.25  → 36番目の値は「180」, 37番目の値は「180」
 75% tile = (n+1)* p2 = 145* 0.75 = 108.75 → 108番目の値は「360」, 109番目の値は「362」
よって、
 25% tile = (1-0.25)* 180(36番目の値)+(0.25)* 180(37番目の値) = 180
 75% tile = (1-0.75)* 360(36番目の値)+(0.75)* 362(37番目の値) = 361.5
 IQR = 361.5 - 180 = 181.5

(3)の(Empirical Distribution Function(経験分布関数)」は、
  上記の方法に従って、IQR=180

(4)の「Empirical Distribution Function - Averaging」は、
  Fractional part(少数部)が「0」なので、(Xi + Xi+1)/2 から、
  25% tile=(180+180)/2=180, 75% tile=(360+362)=361
     よって、
  IQR=361-180=181

詳しくは、先に示した参照URLで、そして、データ解析環境「R」との関連は、下記URLでみることができる.
https://en.wikipedia.org/wiki/Quantile#Estimating_quantiles_from_a_sample

 


統計技術 第Ⅲ部 Free Online Caluclator (事例集)

2022-04-07 10:43:53 | 日記・エッセイ・コラム

統計技術 第Ⅲ部 Free Online Caluclator (事例集)

パソコンによる統計技術として、無料で使用できるオンライン・サイトは初心者にとっても、また、統計を業とする者にとっても非常に便利であり、多くの人々の目を通して、その信頼性も保証されていることが多く、
今後も質が高く使い勝手の良いものが発表されると思われる.
そこで、本稿(統計技術)の最後に筆者が知りえた多くの「Free Online Caluclator 」の中から、統計技術的に役立つと思われるサイトを紹介する.

代表的な「Free Online Caluclator」として、下記URLで利用できるサイトを紹介する.
 
● Free Statistics Software (Calculator) - Web-enabled scientific services & applications 
 https://www.wessa.net

All rights reserved.(全著作権所有)
The non-commercial (academic) use of this software is free of charge. The only thing that is asked in return is to cite this software when results are used in publications.
This project started as a private initiative and is now becoming an academic project with international support. It is our aim to create an international network of partner institutions to manage and maintain this system (including related projects).

このサイトについては、「すぐに役立つ統計のコツ 医学統計編」(オーム社刊、情報統計研究所 編)で著作権者の承諾を得て紹介している.
その内容に沿って、使用方法を紹介しよう.

第1章 Wessa.net 事例集
単変量データでの統計量記述に関する技術例で、1変量の統計量の代表値(平均値など)、データのバラつき(分散など)、データの分布(ヒストグラム)に関する技術を紹介する.
なお、例題は、そのまま利用するので、実際の分析に当たってはサイトの使用方法に従って実行されたい.

第1章-1 Central Tendency(データの要約)
Wessa.net  site にアクセスすれば次のTop page が表示される.

図1 Wessa.net offers these software applications free of charge

ここで、図1の「Descritve Statistics」(記述統計ソフトウェア)をクリックしてみよう.

図2 Univariate Descriptive Statistics - Ungrouped Data(単変量記述統計)

実行(1):
Central Teendency  をクリック→[Sample data]を確認し→[Compute]をクリック

図3 出力結果(1)


 ここで、
 (1) Arithmetic Mean:算術平均
 (2) Geometric Mean:幾何平均
 (3) Harmonic  Mean:調和平均
 (4) Quadratic  Mean:二乗平均

Excel では、
 (1) =AVERAGE( )
  (2) =GEOMEAN( )
 (3) =HARMEAN( )
  (4) = SUMSQ( )/n)

さらに、
図4 出力結果(2):ウィンザライズ平均

図5 出力結果(3):トリム平均

Excel では、次の様にして計算できる.
図6 昇順順位に並べ替えたデータ(1)


 

0.1%トリム平均の場合、1/48≒2% であるので、上下1個ずつ除いた(図6の黄色セル)平均値(279.134)となる.
0.1%ウィンザライズ平均の場合、トリムの最小値(112)と最大値(606)を与えた平均値(280.243)となる. 
また、
0.2%トリム平均の場合、2/48≒4% であるので、上下2個ずつ除いた(図7の黄色セル)した平均値(277.993)となる.
0.2%ウィンザライズ平均の場合、トリムの最小値(114)と最大値(559)を与えた平均値(279.618)となる.

図7 昇順順位に並べ替えたデータ(1)

参照:統計技術Ⅰ部「第2章 トリム平均とウィンザライズ平均」
 http://toukei.sblo.jp/article/186990333.html

図8 その他の出力結果

ここで、
 (1) Median  :中央値
  (2) Midrange  :中間値又は範囲の中央値
  (3) Midmean  :四分位平均(IQM:Interquartile mean)

 

Excel では、次の様にして計算できる.
図9 昇順順位に並べ替えたデータ(2)

25% tile(180)と75%tile(360) 以内の平均値が Midmean=264.904 である.