エクセルの共分散の算出ではCOVARIANCE.SとCOVARIANCE.Pのどっちを使うべきか【関数まとめ】

はじめに
統計量の「共分散」には
- 母共分散
- 標本共分散
- 不偏共分散
の複数が存在します。
一方で、エクセルにも COVARIANCE.P
関数と COVARIANCE.S
関数の2つがあります。
COVAR
関数についても整理しました。
共分散とエクセルでの計算方法の一覧表
共分散(母共分散、 標本共分散、 不偏共分散)と、それぞれ算出するためのエクセル関数の対応関係を以下の表に示しました。
統計量 | 使用するデータのペア (入力) | 統計量の意味(出力) | 計算式 | エクセル関数 |
---|---|---|---|---|
母共分散 | 母集団の全データ | 母集団の全データ ペア間の連動性 | COVARIANCE.P | |
標本共分散 | 標本データ (母集団の一部) | 標本データ ペア間の連動性 | COVARIANCE.P | |
不偏共分散 | 標本データ (母集団の一部) | 母集団の全データ ペア間の連動性 (推定量) | COVARIANCE.S |
COVARIANCE.P
と COVARIANCE.S
のどっちを使うかは、
- 使用するデータ そのもの の間の連動性を算出するとき
(出力 = 入力データペア間の連動性)COVARIANCE.P
関数 - 使用するデータの 背景にある母集団 間の連動性 (推定量) を算出 するとき
(出力 ≠ 入力データペア間の連動性)COVARIANCE.S
関数
で判断できると言えるでしょう。
ケースとしては、限られた標本(サンプル)データから、 COVARIANCE.S
関数が適した)パターンが多いかと思います。
サンプル数が多い場合はどちらでもほぼ差がない
サンプル数 () が大きくなると、
COVARIANCE.P
関数とCOVARIANCE.S
関数の差はほぼなくなります
( のとき、 となるため)。
そのため、サンプル数 () が多い場合は、どちらを使っても問題になることは少ないでしょう。
「標本共分散 = 不偏共分散」とされる場合も
「標本共分散」の扱いは、人によって異なる場合があります。
「標本共分散 = 不偏共分散」とされることもあるようなので注意が必要です。
計算式の分母が と の、どちらなのかに着目しましょう。
関連するエクセル関数
COVARIANCE.P
関数と COVARIANCE.S
関数に関連する関数について、以下にまとめました。
統計量 | 関数 | 関数(旧) |
---|---|---|
母共分散・標本共分散 | COVARIANCE.P | COVAR |
不偏共分散 | COVARIANCE.S | - |
関数(旧)
COVAR
関数は、古いバージョンのエクセルから残っている関数です。 COVARIANCE.P
関数が使えないバージョンでない限りは、
エクセルのセルデータサンプル
以下の 全セルをコピー
ボタンをクリックし、エクセルのセルに貼り付けられます。
A | B | C | D | E | F | |
1 | データ | |||||
2 | X | Y | 母共分散 / 標本共分散 | |||
3 | 11 | 21 | =COVARIANCE.P(A3:A7,B3:B7) | =2 | ||
4 | 12 | 22 | ||||
5 | 13 | 23 | ||||
6 | 14 | 24 | 不偏共分散 | |||
7 | 15 | 25 | =COVARIANCE.S(A3:A7,B3:B7) | =2.5 | ||
8 | ||||||
9 | ||||||
10 |
相関係数を使用するのも手
共分散でなく、相関係数(CORREL
関数)を算出するのも手です。
相関係数は、共分散と同様に2つのデータの連動性を示しますが、
- 「 か か」を迷う必要がない。
- データ間の比較が容易。
- 無次元化(単位なし)されている。
- 規格化(値が必ず-1~1の範囲に入る)されている。