統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計技術:データの分布を見る技術(2)

2020-01-28 12:38:59 | 日記・エッセイ・コラム

統計技術:データの分布を見る技術(2)
前回に続き、「Excel」での Q-Q PLot による正規性の確認や、「R」でデータの分布を見る統計学的な技術を紹介する(下記URLへアクセス).

統計技術では、統計分析で利用できるWebサイト(無料のオンライン・ソフトなど)の利用も紹介して行きたいと思っている.

統計技術 : データの分布を見る技術(2) はここから.
http://toukei.sblo.jp/


統計技術:Histogram と Bins (補足)

2020-01-25 12:47:35 | 日記・エッセイ・コラム

「第4章 データの分布を見る技術(1)」:(http://toukei.sblo.jp/)では、
Excel でのヒストグラム作成の技術を紹介したが、結構めんどうだ.

何故なら、
ヒストグラムの階級数(Bins)を自ら設定する必要があるからだ.
Bin はどの様に決めれば良いのだろうか.

単純には、
級間(hi) = MIN(X)+( MAX(X)-Min(X) ) * i / k

i=階級の番号 級数(k)=SQRT(n) :n=データの個数

・・とするなど、あるいは、
「スタージェスの方法」、「・フリードマン-ディアコニスの方法」、「スコットの方法」などあるが、
「R」では、これらの方法を任意に設定出来る.

要するに、ヒストグラムはデータの分布を適切に表しているかどうかである.

「R」の環境がなければ、
統計技術的には、無料の「Histogram Online Calculator」(下記URL)を上手に利用される事をお勧めしたい.

https://www.answerminer.com/calculators/histogram

 

紹介記事(抜粋)
***
What is histogram ?
Histograms are the most useful tool to say something about a bunch of numeric values. 
Compared to other summarizing methods, histograms have the richest descriptive power while being the fastest way to interpret data – the human brain prefers visual perception. 
However, if you are not careful, viewers will not be able to understand your histogram, or you may fail to get the most out of it. 
It is especially important to specify the optimal bin size. 
You can set the bin size under the visualization.

Which is the ideal bin size ?
It depends on your data. First time when you copy your data, our smart algorithm calculates the ideal bin size, but you can change it if you want.
***

 

統計技術へのアクセスはここから!

http://toukei.sblo.jp/

 

 

 

 

 

 


統計技術:データの分布を見る(補足)

2020-01-23 12:17:21 | 日記・エッセイ・コラム

統計技術:データの分布を見る(補足)

データの分布を見る技術(1)では、Excel 関数による歪度(Skewness)と 尖度(Kurtosis)の計算技術を紹介したが、
Skewness関数には、
「SKEW」(標本での歪度)と「SKEW.P」(母集団での歪度)のがあり、通常の小標本では「SKEW」を使用して問題ないが、一応、使用にあったは注意されたい。
次に、
尖度(Kurtosis)の Excel 関数は「KURT()」であるが、この計算は「SPSS方式」と言って、次の様な計算式から求めている。

{ n*(n+1)/( (n-1)(n-2)(n-3) ) Σ( ( Xi-mean )/sd )^4 } - (3*(n-1)^2/( (n-2)(n-3) )

したがって、正規分布の尖度を「0」とする定義となる。

正規分布の尖度を「3」とする定義(Rなど)での尖度は次の様に解釈する。

ヒストグラムの形状:  
KURT  >  3 → 尖っている 
KURT  <  3 → 平たんである 
KURT ≒ 3 → 正規分布 

以上、補足まで.


中央値と四分位数の技術

2020-01-10 18:23:42 | 日記・エッセイ・コラム
 
 
統計技術:中央値と四分位数の技術
 
データの特徴(性質)は、その分布などによって示されるが、特に、平均値と標準偏差で記述されることが多い。
第1章では、平均値と標準偏差の技術を紹介したが、データを代表する統計量としては中央値と四分位数(パーセンタイル)も
よく使用される。特に、ノンパラメトリック法では中央値と%タイルで表記されることも多々見受けられ、非正規分布の歪んだ分布では中央値のほうが代表値として、よりシックリくるかも知れない。
 
下記URLに掲載(統計技術 : Sakura ブログ
http://toukei.sblo.jp/