統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

ビジネスと統計(12)

2015-07-16 17:54:37 | 日記・エッセイ・コラム

なるべく平易な言葉で、初心者にも分かり易く説明したいのですが、これが結構難しい・・・、ある教授が筆者にこう言いました。
「本当に分かっている者はやさしく説明できる・・・」、確かだと思います。
さて、
前号(10)での「花粉飛散数と最低気温」ですが、ここでは、
花粉飛散数を最低気温で説明しようとしているので、この最低気温を説明変数とか独立変数とか言います。これに対して花粉飛散数は目的変数とか従属変数と言います。

「目的とする花粉数を最低気温で説明する」・・とでも覚えておいて下さい。

そして、
目的変数を[y]とし、説明変数を[x1]としますと、この関係は y=α+β.x1 の線形回帰式で表します。

これって、
1次方程式(y=a・X1+b)の事じゃないの・・・、って思われますが、算術の方程式とは区別しておきましょう。

この様な、
単純な回帰式で表すためには花粉飛散数を対数変換しておく必要がありました。

前号(10)での図2は、線形回帰式を云々するために用いた例題ではありません。
最低気温(8.5℃)を境に2つの群があることです。
8.5℃未満では最低気温の上昇に伴って花粉飛散数が増加し、反対に、8.5℃以上では減少するって・・・、おかしくないでしょうか・・・?

そうなのです!

ここでは、図1の様に最低気温は天気(1=赤、2=×、3=青)の影響を受けている様です。

図1 花粉飛散数と最低気温と天気

もちろん、
花粉飛散数は天気や最低気温だけで決まるものではありません。
気象との関連は、下記の文献を参考にして下さい。

 ・スギ花粉飛散開始の予測:医学と生物学;120(4), p157-161, 1990-04.
 ・スギ花粉飛散の地域的特質:医学と生物学;121(4), p165-169, 1990-10.

要は、
ビジネスの現場でも、この様な事例は沢山あると思われます。

よ~く・・・観察することの大切でしょう! 

その観察力は、
単に統計に詳しい以前に色々な経験によって培われるものではないでしょうか。


情報統計研究所はここから!


ビジネスと統計(11)

2015-07-13 19:29:16 | 日記・エッセイ・コラム

前号(10)で、最低気温と対数飛散数を相関関係を表す相関係数(r)で示してしまい誤解を招きました。
花粉飛散数と最低気温は回帰分析で表すべきですので、その統計量を記しておきます。
なお、
詳しくは、筆者がお勧めする「統計学入門 第5章 相関と回帰」を是非ご参考になさって下さい。

http://www.snap-tck.com/room04/c01/stat/stat05/stat0501.html


花粉飛散数と最低気温(8.5℃未満)の回帰式
 Log(花粉数)=1.581+0.31×最低気温 (R^2=0.208)

花粉飛散数と最低気温(8.5℃以上)の回帰式
 Log(花粉数)=6.302-0.483×最低気温 (R^2=0.126)


前号の訂正:最低温度は8.5℃で分けていました。

なお、
花粉飛散数と最低気温については、次号(12)で説明しますのでしばらくお待ち下さい。


ビジネスと統計(10)

2015-07-13 14:54:05 | 日記・エッセイ・コラム

「科学の道具箱」


 

http://rikanet2.jst.go.jp/contents/cp0530/contents/04-11-01.html

 からスギ花粉飛散量と気象条件のデータをダウンロードしビジネスに当てはめて見ましょう。

データは表1のようになっています。

表1 花粉飛散量と気象条件

すなわち、
「平均気温、最高気温、最低気温、天気、飛散量」の5つの項目(変数)をビジネス・データに当てはめて下さい。例えば、
飛散量は売上高などであり、他は売上高に影響する因子などです。

飛散量の分布を見て下さい。

図1 飛散量のヒストグラム(SAS-JMP使用)


左のヒストグラムは生データの分布で非常に偏っています。
このままでは分析に用いることが出来ませんので、対数変換「LN(X+0.1)」 し、右のように正規分布に近い型にしました。
そして、
最低気温と対数飛散数の相関関係を見ると図2のようになりました。

図2 最低気温と対数飛散数

図2の青色は「最低気温<8.0℃」、赤色はそれ以上の群です。
この様に、
花粉飛散数は最低気温(8.0℃)を境に異なっています。これを一つにして相関関係を見ると誤った結果になります。
ここでの、
青色の相関係数は r=+0.456(正の相関)、赤色は r=-0.355(負の相関)であり、相関関係が異なっています。

ビジネスにおいても、この様な事例を経験するかも知れません。
この様に、
単に数学的な公式を解くのが統計分析ではありません。色々なビジネスの現場を経験していないと分からない事が沢山あります。
統計分析でも、あなたの経験や知識が求められ、それは統計のセンスを磨くことにつながります。

あなたが日常の仕事の中で統計を活用しておれば、いつの間にかあなたは統計のスペシャリストになっている事でしょう。


情報統計研究所はここから!

 

 


ビジネスと統計(9)

2015-07-07 13:52:29 | 日記・エッセイ・コラム

ホウレン草の価格を時系列データとして、その循環変動に注目しましたが、ここで、時系列としてではなく、平成24と平成25のホウレン草価格の平均値に差があるかどうかを調べて見ましょう。

図1はホウレン草価格のBox Plot(箱ひげ図)です。

図1 ホウレン草価格のBox Plot
 

そして、

表1はホウレン草価格の統計量とWilcoxonの順位和検定の結果です。

表1 ホウレン草価格の統計量と検定結果

ホウレン草価格を両年度で比較しますと、Wilcoxon testの p-value= 0.9282>0.05 であり、その平均値(ここでは代表値ですが同じ意味)に差のない事が分かります。
このことは、図1のBox Plot を見ても両年度の分布が同じ事からも分かると思います。

しかし、
両年度で比較すると、季節変動がまるめられてしまいますので気を付けなくてはなりません。
そこで、
各年度の季節(冬、春、夏、秋)ごとの平均値に違いが無いかを調べて見ます。
図2を見て下さい。

図2 ホウレン草価格(季節ごとの)のBox Plot

季節ごとの価格には差が有りそうです。
母集団で差が有るかどうかは、統計学的な検定で判断します。
ここでは、
Steel Dwass の多重比較で検定しており、図2において同符号(アルファベット)間に有意差(p<0.05)のあることを示しています。

多重比較とは、
例題の様な一元配置分散分析の対象において、どの季節(水準間)の組合せに有意な差が有るかを見るものです。

さあ~~!
あなたのビジネスにおいて使って見て下さい。

情報統計研究所はここから。