共分散(covariance)とは、2次元データ [latex](X_i,Y_i)~(i=1,2,3,\cdots,n)[/latex]の間の関連性を調べるものです。データ[latex]X_i[/latex]と[latex]Y_i[/latex]の間で、片方が大きくなった時、もう片方も大きくなる場合に共分散の値は大きくなります。また、片方が大きくなった時、もう片方は小さくなる時は、共分散の値は大きなマイナスの値をとります。また、相関係数を求めるときに、その前段階として計算される量でもあります。
通常、データ列に対して共分散という時には、母集団に対する母集団共分散と、標本に対する標本共分散の2通りあります。このページでも母集団共分散と標本共分散の両方を解説したいと思います。
2次元データの共分散
[latex]n[/latex]個の2次元データ [latex](X_i,Y_i)~(i=1,2,3,\cdots,n)[/latex]に対して、母集団共分散[latex]Cov(X,Y)[/latex]は、以下で定義されます。
[latex size=2]\displaystyle Cov(X,Y)=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})[/latex]
ここで、[latex]\bar{X}[/latex]と[latex]\bar{Y}[/latex]は、それぞれデータ列[latex]X_i~(i=1,2,3,\cdots,n)[/latex]と[latex]Y_i~(i=1,2,3,\cdots,n)[/latex]の平均です。
また、[latex]n[/latex]個の2次元データ [latex](X_i,Y_i)~(i=1,2,3,\cdots,n)[/latex]に対して、標本共分散[latex]Cov(X,Y)[/latex]は、以下で定義されます。
[latex size=2]\displaystyle Cov(X,Y)=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})[/latex]
標本共分散のほうの右辺で、[latex]n[/latex]でなくて[latex]n-1[/latex]で割っているが不思議に思われる読者の方もいると思います。これは、母集団ではなくて、標本の方の共分散や分散を求める時は自由度の関係から、[latex]n-1[/latex]の方が精度が良くなる知られています。
母集団共分散と標本共分散の使い分けは微妙な場合もありますが、基本的に母集団にたいして共分散を計算する場合は母集団共分散、母集団から取り出した標本にたいして共分散を計算する場合は標本共分散をつかいます。
また、共分散の定義で、自分自身との共分散[latex]C(X,X)[/latex]は、データ列[latex]X_i~(i=1,2,3,\cdots,n)[/latex]の分散[latex]V[X][/latex]と同じになります。たとえば、母集団共分散の場合は
[latex size=2]\displaystyle Cov(X,X)=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2 = V[X][/latex]
(例)次の五人の身長と体重の母集団共分散を求めてみましょう。
身長([latex]X_i[/latex]) | 体重([latex]Y_i[/latex]) | [latex]X_i-\bar{X}[/latex] | [latex]Y_i-\bar{Y}[/latex] | |
---|---|---|---|---|
Aさん | 174cm | 65kg | 2cm | 3kg |
Bさん | 163cm | 54kg | -9cm | -8kg |
Cさん | 182cm | 70kg | 10cm | 8kg |
Dさん | 169cm | 58kg | -3cm | -4kg |
Eさん | 172cm | 63kg | 0cm | 1kg |
まず、身長の平均[latex]\bar{X}[/latex]と体重の平均[latex]\bar{Y}[/latex]を求めると172cmと62kgになります。そして、五人の身長と身長平均の差[latex]X_i-\bar{X}[/latex]を求めます。また、同様に五人の体重と体重の平均の差[latex]Y_i-\bar{Y}[/latex]を求めます。これらの値は上の表の右側2列に記入しました。これから共分散を求めると次のようになります。
[latex size=2]\displaystyle Cov(X,Y)=\frac{1}{5}(2\times3+(-9)\times(-8)+10\times8+(-3)\times(-4)+0\times(-8))=34[/latex]
よって、上記の身長と体重のデータの共分散(標本共分散)は42.5になります。
多次元の共分散行列
また、n個のm次元のデータがあった時、 [latex](X_i^1,X_i^2,\cdots,X_i^m)~(i=1,2,3,\cdots,n)[/latex], m個の変数のそれぞれのペアについて共分散(標本共分散)を計算すると、それは[latex]m \times m[/latex]行列になります。これを共分散行列(covariance matrix)といい[latex]\Sigma_{pq}[/latex]と表します。共分散行列のp行q列の成分は以下で与えらます。
[latex size=2]\displaystyle \Sigma_{pq}=Cov(X^p,Y^q)=\frac{1}{n-1}\sum_{i=1}^n(X_i^p-\bar{X^p})(X_i^q-\bar{X^q})[/latex]
この共分散行列[latex]\Sigma_{pq}[/latex]の対角成分[latex]\Sigma_{pp}[/latex]は、それぞれの変数の[latex]X_i^p~(i=1,2,3,\cdots,n)[/latex]の分散[latex]V[X^p][/latex]となります。
実際には、この共分散や共分散行列をそれぞれのデータ列の標準偏差で割った、相関係数や、相関行列を用いられることが多いです。
●関連ページ
平均、分散、標準偏差
共分散・共分散行列
相関係数・相関行列
中心極限定理
統計的推測の概論