2024/11/16

相関係数の算出と単回帰分析ツール【統計学】

Thumbnail for 相関係数の算出と単回帰分析ツール【統計学】

計算ツール

xy
153.0235.06
265.8151.35
313.830.16
420.2939.45
540.2140.39
651.7353.54
752.4658.33
831.1528.88
939.5436.91
1030.4624.75
1145.0552.28
1232.2136.22
1333.7125.85
1441.537.64
1555.8150.55
1652.0545.91
1767.3473.99
1830.8336.75
1988.0985.82
2034.3952.80
2138.3649.63
2213.9810.02
2352.0749.95
24-5.75-11.38
2515.376.64
2648.1649.75
2775.6375.54
2837.9528.79
2964.3973.38
3068.4267.71
3160.7961.50
3255.4967.20
33-1.433.14
340.69-2.68
3580.3878.72
3626.2128.87
3753.0228.51
単回帰直線 : y= 0.00x + 0.00
00.050.1xx00.050.1yy
X-Y
ピアソンの相関係数
スピアマンの相関係数
単回帰直線
y =  x - 
決定係数

この計算ツールでは、データ列間の相関値(相関係数)が算出できます。 スプレッドシートにデータ列を記入することで、テーブルに相関係数が表示され、データの散布図とフィッティング直線がグラフに表示されます。

スプレッドシートについて

解析するデータ列を記入してください。 スプレッドシート上のX列とY列のデータが、それぞれ対応するように xxyy として扱われます。

グラフについて

グラフ上では、スプレッドシートに入力したデータ列の散布図およびフィッティング直線が表示されます。 グラフの横軸が XX 、縦軸が YY になっています。

テーブルについて

テーブルでは、スプレッドシートに入力したデータ列間の相関係数 およびフィッティング直線の数式と決定係数が表示されます。 表示される相関係数は、ピアソンの相関係数とスピアマンの相関係数の 2種類を表示しています。

相関係数と単回帰分析について

ピアソン、スピアマンの相関係数

相関係数(相関値)は、絶対値が1に近いほど「高い相関」を示し、0に近いほど「低い相関」を示します。 一般的に 0.6 or 0.7以上の場合に「相関あり」とするケースが多いようです。

ここでは、ピアソンの相関係数とスピアマンの相関係数の 2種類を用いています。 ピアソンの相関係数は、データの母集団が正規分布である という仮定の元で使用されます。 ピアソンの相関係数よりも外れ値に強く、 またデータに正規性がなくても使用できます。 データ列が直線関係でなく、単調増加・単調減少の関係性(指数関数や対数関数など)であれば相関関係を算出できますが、 それ以外 (2次関数など) の関係性では、たとえ実際には相関があっても低い相関係数になります。 相関係数の値だけでなく、散布図も必ず確認してください。

ピアソンの相関係数 (Peasonの積率相関係数) は次の式で表されます。

  • xix_i : データ XXii 番目の値
  • yiy_i : データ YYii 番目の値
  • x\overline{x} : データ XX の平均値
  • y\overline{y} : データ YY の平均値
  • nn : データ数
r=1nin(xix)×(yiy)1nin(xix)21nin(yiy)2r = \dfrac{\dfrac{1}{n}\sum _{i}^{n}\left( x_{i}-\overline{x}\right) \times \left( y_{i}-\overline{y}\right) }{\sqrt{\dfrac{1}{n}\sum _{i}^{n}\left( x_{i}-\overline{x}\right) ^{2}{\dfrac{1}{n}\sum _{i}^{n}\left( y_{i}-\overline{y}\right) ^{2}}}}

スピアマンの相関係数 (Spearmanの順位相関係数) は、 各データの値を順位に変換し、 順位同士でピアソンの相関係数を算出したものになりますが、 次の式が多用されます。

  • DiD_i : xix_ixix_i の順位の差
  • nn : データ数
ρ=16inDi2n(n21) \rho = 1 - \frac{6 \sum_{i}^{n} D_i^2}{n(n^2 - 1)}

単回帰分析について

ここではデータの関係が直線関係(線形関係)であると仮定しており、 1次関数による線形回帰分析を使用しています。 使用するデータごとに、1次関数によるフィッティングが妥当であるのか の判断が必要なので、ご注意ください。

フィッティング直線は、傾き aa と切片 bb の2つのパラメータによって決まります。 計算式は次の通りです。

  • yiy_i : データ YYii 番目の値
  • y\overline{y} : データ YY の平均値
a=i=1n(yiyˉ)(xixˉ)i=1n(xixˉ)2b=yˉaxˉ\begin{align*} a &= \frac{\sum_{i=1}^{n} (y_i - \bar{y})(x_i - \bar{x})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \\ b &= \bar{y} - a\bar{x} \end{align*}

決定係数として、ここでは次の式を使用しています。 フィッティング直線が実際のデータにどの程度合致しているのかを示しています。 0に近いほど不一致であり、1に近いほど一致していることを意味します。

  • fif_i : データ YYii 番目の推定値 (フィッティング直線の値)
R2=1in(yifi)2in(yiy)2R^{2}=1-\dfrac{\sum _{i}^{n}\left( y_{i}-f_{i}\right) ^{2}}{\sum _{i}^{n}\left( y_{i}-\overline{y}\right) ^{2}}