統計ブログはじめました!

各専門分野の統計技術、方法、テクニックなどを気ままに分かり易く例題をもとに解説します。

統計技術 第Ⅲ部:第2章 多変量記述統計(4)

2022-05-28 10:49:35 | 日記・エッセイ・コラム

統計技術 第Ⅲ部:第2章 多変量記述統計(4)
第2章-3:Part and Partial correlation coefficient(部分・偏相関係数)

前章前項( 第2章-2)では、偏相関係数(Partial correlation coefficient)について紹介したが、これについては
杉本典夫先生(統計学入門の著者)で詳しく解説されているので下記URLを参照されたい.
 http://www.snap-tck.com/room04/c01/stat/stat06/stat0602.html#note02

上記URLでは偏相関係数と部分相関係数について解説されているが、
ここでの統計技術では前章前項( 第2章-2)の例題をExcel 関数でやってみよう.

例題のデータによるは単相関係数と部分相関係数は図1の通りである.
図1 単相関係数と部分相関係数(Excel 形式)


ここで、
単相関係数の関数式:
 X,Y =CORREL(A2:A6,B2:B6)
 X,Z =CORREL(A2:A6,C2:C6)
 Y,Z =CORREL(B2:B6,C2:C6)

部分相関係数の関数式:
 X,Z =(B9-B10*B8)/SQRT(1-B8^2)→Y の影響を除いた X と Z の相関
 Y,Z =(B10-B9*B8)/SQRT(1-B8^2)→X の影響を除いた Y と Z の相関

次に、
偏相関係数をみてみよう.
X、Y、Zの3つの変数間において、Y又はXの影響を調整すると、「XとZ」又は「YとZ」の相関はどうなるのか・・である.
同じ例題のデータ(図1)を使て Excel 関数でやってみよう.

 図2 Excel 関数による方法

回帰係数 の
βxは Xを従属変数、Zを説明変数とする回帰分析の勾配係数で、αxはその切片係数、
βyは Yを従属変数、Zを説明変数とする回帰分析の勾配係数で、αyはその切片係数

Excel 関数は次の通りである.
 =SLOPE(A7:A11,C7:C11). =INTERCEPT(A7:A11,C7:C11)
 =SLOPE(B7:B11,C7:C11). =INTERCEPT(B7:B11,C7:C11)

そして、この係数から、
変数Xと変数Yの予測値は「Pred.XとPred.Y」であり、実測値と予測値の差が「X-Pred.X と Y-Pred.Y」であり、
「X-Pred.X と Y-Pred.Y」の相関係数が偏相関係数(r[xy,z])≒-0.5414 となる.

偏相関係数(r[xz,y] と r[yz,x])は図2のデータを入れ替えれば簡単に計算できる.
すなわち、
r[xz,y] は y 列データを z 列データに入れ換えでば→ r[xz,y]≒0.6054
r[yz,x] は x 列データを y 列データに、y 列データを z 列データに入れ換えれば→ r[xz,y]≒06428

となる.

 


統計技術 第Ⅲ部:第2章 多変量記述統計(3)

2022-05-21 10:20:54 | 日記・エッセイ・コラム

統計技術 第Ⅲ部:第2章 多変量記述統計
第2章-2:Trivariate Descriptive Statistics (三変量記述統計)

3変量の場合の統計量記述について、ここでのOnline Culclator が参考になるかも知れない.

● Free Statistics Software (Calculator) - Web-enabled scientific services & applications 
 https://www.wessa.net

「Wessa.net」のTop ページから、
Descritive Statistisc を選択

下方にスクロースして、

図1:Trivariate Descriptive Statistics 


Partial Correlation を選択

Compute をクリック

図1 出力結果:3変数間の偏相関係数

次に図1から、
Trivaliate Scatterplots を選択

Compute をクリック

図2 出力結果:3変数間の散布図

 


前回の回帰分析について(補足)

2022-05-14 11:20:40 | 日記・エッセイ・コラム

第2章-1(続き)Bivariate Descriptive Statistics (二変量統計記述)
● 「Linear Regression Graphical Model Validation」に関して、杉本典夫先生(統計学入門の著者)からのコメントをご紹介します(原文のまま)

重箱の隅を突くようなコメントで恐縮ですが、回帰分析(回帰直線)と相関分析(相関係数)はよく同じデータに対して用いられます。
でも実は、
これらは相反する前提で構築された手法なので、厳密に言えば同じデータには適用できません。
大雑把に言えば、
回帰分析は説明変数X(原因項目)は研究者が特定の値を指定するので誤差がなく、目的変数Y(結果項目)はその結果を観察するので誤差がある、という前提で手法を構築しています
(説明変数にも誤差がある時は、回帰係数が BLUE(Best Linear Unbiased Estimator、最良線形不偏推定量)ではなくなります)。
例えば
薬剤の用量を研究者が指定し、その反応を観察した時の用量−反応データを解析する用量−反応解析が代表的です。
それに対して、
相関分析は2つの項目の間に相互関連性(お互いに影響を与え合っている状態)があり、どちらも自然変動しているので誤差がある、という前提で手法を構築しています。
例えば、
収縮期血圧と拡張期血圧はお互いに関連性があり、しかも同時に変動するので、通常は相関分析を適用します。

詳しいことは、僕のウェブサイトの次のページを参考にしてください。
統計学入門
 http://www.snap-tck.com/room04/c01/stat/stat05/stat0501.html


統計技術 第Ⅲ部:第2章 多変量記述統計(2)

2022-05-13 10:47:10 | 日記・エッセイ・コラム

第2章-1(続き)Bivariate Descriptive Statistics (二変量統計記述)

前回(第2章-1) からの続き!

次に、
上記の前回の「Free Statistics Software (Calculator) 」(https://www.wessa.net)の「Bivariate Descriptive Statistics」のデータ入力画面で、

● 「Linear Regression Graphical Model Validation」を選択してみよう.

入力データは、下記の血圧値を用いてみる.

[最高血圧]→Data X
148,128,120,118,146,138,114,130,118,136 ,118,124,110,120,140,154,154,100,136,128,128,128,146,156,128
144,120,128,138,126,138,130,118,120,128,136,160,124, 98,104,130,136,114,150,138,118,142,120,128,130

[最低血圧]→Data Y
100, 68, 70, 68, 88, 86, 70, 73, 76, 86 ,60, 73, 64, 74, 80,100, 98, 70, 84, 78, 80, 68,100, 88, 73
80, 74, 72, 88, 68,88, 80, 80, 70, 74 ,75, 89, 73, 58, 60 ,80, 80, 78, 90, 74,76, 86, 64, 68, 73

図1 血圧データの入力画面


「Compute」をクリック

出力結果(直線回帰モデル)

 

この結果から、回帰モデルは次のようになる.
 Y(最低血圧)=0.6044*X(最高血圧) - 0.924

Correlation:相関係数(r)とDetermination:決定係数(R^2)は図1の実行で次の結果を得た.
Correlation:相関係数(r)=0.8237
Determination:決定係数(R^2)=0.6785

 


 

 


統計技術 第Ⅲ部:第2章 多変量記述統計(1)

2022-05-08 10:55:18 | 日記・エッセイ・コラム

統計技術 第Ⅲ部:第2章 多変量記述統計

第2章 Bivariate Descriptive Statistics (二変量記述統計)
Wessa.net 事例集から、2つ以上の変量からなるデータの統計量記述に関する技術を紹介する.
多変量、すなわち2つ以上ののグループ化されていない独立した2つ以上の標本の生データの統計量であり、2つ以上の相関関係や代表値の有意差検定など多岐の分析となる.
なお、例題は、そのまま利用するので、実際の分析に当たってはサイトの使用方法に従って実行されたい.

● Free Statistics Software (Calculator) - Web-enabled scientific services & applications 
 https://www.wessa.net

第2章-1 Bivariate Descriptive Statistics (二変量統計記述)
二変量記述統計では、2つの標本の変数を分析・比較して、変数間に関係を要約する.

「Wessa.net」のTop ページから、
 Descritive Statistisc を選択

下方にスクロースして、

図1 「Bivariate Descriptive Statistics」のデータ入力画面


● Correrationを選択

図1 データ入力画面


「Compute」をクリック

図3 出力結果(1)

 

ここで、
.統計量とExcel 関数は次の通りである.
------------------------------------------------------------------------------
Mean:平均値.....=AVERAGE()
Biased Variance:母集団分散.....=VAR.P()
Biased Srandard Deviation:母集団標準誤差.....=STDEV.P()
Covariance:標本共分散.....=VAR.S()
Correlation:相関係数(r).....=CORREL()
Determination:決定係数(R^2).....=r^2
T-Test:相関係数のt検定....Excel の「データ分析→回帰分析」
p-value(2 sided):相関係数のt検定の両側p値....上記から
p-value(1 sided):相関係数のt検定の片側p値
95% CI of Correlation:母相関係数の95%CI...下記参照
Degree of Freedom:自由度....N-2=5-2=3
Number of Observations:データ数....N=5
-------------------------------------------------------------------------------

「95% CI of Correlation」計算の参照先URL:
情報統計研究所(やさしい医学統計手法)

「6.3. 相関と回帰について」を参考にExcel で計算できる.

図3 出力結果(2):Normality Test(正規性の検定)
 Bivariate-4.jpg
 
ここで、
・jarque-Bera Normality Test(ジャック-ベラ検定)

data: X
 JB=0.35208 (p=0.8386、片側検定)

data: Y
 JB=0.54552 (p=0.7613、片側検定)

正規分布に従うSkewness(歪度)かKurtosis(尖度 )かを調べるもので、p値から正規分布と判断される.
なお、
小標本の場合には有意に傾きやすいので、p値の補正が必要との説もある.

次回に続く!