分散と標準偏差

Pocket

期待値と並んで重要な概念に分散(variance)があります。大雑把にいって分散とは、確率変数がとりうる値の散らばり具合です。大きい値と小さい値がごっちゃになって確率変数の変動幅が大きくなると、分散は大きくなります。

さっそく、分散の定義を見ていきましょう。期待値の定義の時と同じで、確率変数が連続の場合と離散の場合に分けて定義をします。

分散の定義

離散確率変数の場合

確率変数Xの期待値を\mu=E[X]とします。確率変数Xが離散確率変数の時は、確率分布をp(x_i)=P(X=x_i)とすると、分散をV[X]は定義されます。

\displaystyle V[X]=E[(X-\mu)^2]=\sum_{i}(x_i-\mu)^2p(x_i)

ここで、\mu=E[X]です。

この定義を見てわかることは、確率変数のとりうる値が期待値からそれほど違わないことが多い場合は分散は小さくなります。逆に、確率変数のとりうる値が期待値から大きくずれることが多い場合は、分散は大きくなります。大雑把な例としては、次の通りです。

(分散の小さな例)90円と110円がそれぞれ50パーセントの確率であたる”くじ”
(分散の大きな例)50パーセントの確率で200円当たるが、50パーセントの確率で何ももらえない”くじ”

連続確率変数の場合

さて、期待値の時と同様に、連続確率変数の場合は分散の定義に積分が必要になります。理由は連続確率変数の場合はとりうる値が無限通りあるので、分散の定義を有限和で表すことができずに、無限和(積分)が必要になるからです。では、連続確率変数の時の分散の定義をみてみましょう。

確率変数Xが連続確率変数の時は P(X\le x)=\int_{-\infty}^x p(x)dxとすると、分散V[X]は次にように定義されます。

\displaystyle V[X]=E[(X-\mu)^2]=\int_{-\infty}^\infty (x-\mu)^2p(x)dx

 

分散の計算例

(例)確率変数Xを、サイコロを1個振った時の出た目とします。この確率変数の分散を求めてみましょう。期待値は\mu=E[X]=3.5なので、次のような計算になります。

\displaystyle V[X]=E[(X-\mu)^2]=\sum_{i}(x_i-\mu)^2p(x_i)=(1-3.5)^2\times\frac{1}{6}+(2-3.5)^2\times\frac{1}{6}+(3-3.5)^2\times\frac{1}{6}+(4-3.5)^2\times\frac{1}{6}+(5-3.5)^2\times\frac{1}{6}+(6-3.5)^2\times\frac{1}{6}=\frac{35}{12}=2.92

 

分散の性質

分散には、もともとの定義式以外にも、もう一つの計算方法があります。

\displaystyle V[X]=E[X^2]-(E[X])^2

 

実際に分散を計算するときは、もともとの定義式より、こちらの式を使うほうが多いです。特にコンピューターなどの計算機ではこちらで計算されます。

 
また、分散には、期待値の時のように線形性は成り立ちませんが、以下の定理が成り立ちます。

Xを確率変数として、aaを任意の定数とするとき、次の式が成り立ちます。

\displaystyle V[aX+b]=a^2V[X]

 

この式は、この後に細かな計算によく使いますので、頭に入れておいたほうが良いでしょう。

 

標準偏差の定義

さて、ここまで分散の話をしてきましたが、分散の問題点は何でしょうか?

それは、分散の定義をよく見ていただくとわかるのですが、分散V[X]の単位は、元の確率変数Xの単位とは異なるということです。具体的には、分散V[X]の単位は、元の確率変数Xの単位の二乗となっているところです。

たとえば、確率変数Xを宝くじの当選金額とすると、その単位は[円]です。すると、その分散V[X]の単位は、[円×円]となりますが、円の二乗という単位は、意味がよくわかりません。そこで通常、確率変数の散らばり具合を見るのに、分散の代わりに次で定義される標準偏差という概念を使います。ただ、この標準偏差を計算するのに分散をつかうので、分散の定義が不要というわけではありません。

確率変数Xの標準偏差s(X)は次で定義されます。

\displaystyle s[X]=\sqrt{V[X]}

 

この標準偏差の定義を見てもらえばわかりますが、標準偏差s[X]の単位は、もとの確率変数Xの単位と同じになっています。例えば、もとの確率変数Xの単位が[cm]であれば、標準偏差s(X)の単位も[cm]になります。単位が同じだと、わかりやすいですね。なので、通常は分散より標準偏差の方がよく使われます。

コメントは停止中です。