区間推定を初心者向けに解説しました。

Pocket

全部しらべるのが困難なほどの莫大な数の集団の統計的な性質を、少数のサンプルを調べることにより、推測しようというのが、統計的推測です。統計的推測には、区間推定と検定の2種類がありますが、今回は区間推定について解説します。

区間推定の例

統計的推測の一つの柱である区間推定の具体例は、選挙の出口調査や、テレビ視聴率調査、内閣支持率の調査などです。

 

例えば、各テレビ番組のニュースなどで、内閣支持率の調査発表されるのを見ることも多いと思います。「○○内閣の支持率は70%でした」とかいうと、コメンテイターが「支持率高いですねー」とか言ったりしますね。

 

ところで、内閣支持率の調査は何人くらい調査しているか、気にした人はいるでしょうか?

 

本来あれば、日本の(何千万人といる)有権者全員を調査しなければ、内閣支持率の正確な値は分からないはずです。ところが、テレビを注意してみていただければわかると思いますが、各メディアが内閣支持率を調査する場合サンプル数として、大体千人から多くても2千人位しか調査しません。実は、それぐらいの人数を調査すれば、有権者全体の内閣支持率をかなり良い精度で知ることができます。

 

「どうして、たった千人位の調査で、(数千万人もいる)日本全国総有権者の内閣支持率がわかるのでしょう?」「その千人の調査で算出した支持率(サンプル値)と、数千万人の有権者全体の支持率(真の値)が大きく食い違ったりしないのでしょうか?」という疑問が湧いてきます。

 

実は、たった1000人のサンプル調査でも十分信頼できる数字が分かります。少ない人数のサンプル数で、大規模な集団の特徴量を推定するのが区間推定という統計学の手法なのです。

 

区間推定の概略

典型的な区間推定の問題は次のような枠組みになります。

 

莫大な数の母集団の特徴的な量(平均、標準偏差など)が取りうる合理的な区間幅を、少数の標本(サンプル)から推定しようというのが区間推定です。区間推定では、簡単に調べられる少数の標本の平均や分散を用いて、母集団の平均や分散を推定することができます。この区間推定を使えば、少数のサンプル調査だけで、大きな母集団を全部調べなくても良いのでコストなどの面からもとても便利です。

区間推定の要点は以下のとおりに図示できます。

少ない数の標本(簡単に調査できる。)⇒ 莫大な数の母集団の性質(調査が難しい)

簡単に調査できる少ない標本調査(サンプル調査)から、莫大な母集団の平均や分散がどれくらいの値(の範囲)になるのか推定できるところがポイントです。(母集団の例としては日本国民全体などです。国民全体は多すぎて、全部調査することがコスト面などから難しいですね。)

 

基本的な用語

ここで、統計特有の言葉を定義して区間推定の問題を統計学用語で言い表してみたいと思います。母集団の平均や標準偏差を、「母平均」や「母標準偏差」と言います。一方、少ないサンプルの方の平均や標準偏差は「標本平均」や「標本標準偏差」といったりします。

「母平均」や「母標準偏差」 ー> 母集団の統計量
「標本平均」や「標本標準偏差」 -> 標本の統計量

つまり、平均といっても2種類あるんですね。一つは母集団の方の平均(母平均)、もう一つは標本の方の平均(標本平均)です。例えば、全国の20歳の男性の平均身長をサンプル1000人を調査することで、区間推定したいといった問題の場合、全国の何十万人の20歳男性全員の平均身長が「母平均」で、サンプル1000人の平均身長が「標本平均」になります。

先ほど説明した区間推定を統計用語で言い換えると、簡単に調査できる標本平均や標本標準偏差から、調査が難しい(または不可能な)母平均や母標準偏差が推定したいということです。

標本平均や標本標準偏差(標本) ⇒ 母平均や母標準偏差(母集団)

 

区間推定のパターン

実際に区間推定には、4つのパターンがあります。問題に応じて、この4つのうちから適切な方法を選びます。

(1)母平均の推定

  1. 母標準偏差が既知の場合  [パターン1]
    まず、この場合が、最初の理解すべきパターンとなる。実際には母分散が既知のことは、まずありえないが、もっとも単純なパターンで習得が容易である。
  2. 母標準偏差が未知の場合(大標本:サンプル数が30以上) [パターン2]
    このパターン2は、パターン1を理解すれば、パターン1の公式で、母分散を標本分散に置き換えれば、すぐに公式を得られる。
  3. 母標準偏差が未知の場合(小標本:サンプル数が30未満)[パターン3]
    パターン2の公式で、正規分布をt分布に置き換えれば、このパターン3の公式を得られる。

(2)母標準偏差の推定  [パターン4]
χ二乗分布という確率分布が必要

 

教科書的(論理的)に説明しようとすると、パターン1,2,3,4の順番に説明することになります。特にパターン1,2は、正規分布と中心極限定理だけから説明することができて簡単に習得できます。パターン3はt分布、パターン4はχ二乗分布という確率分布の知識が必要となり、パターン1、2よりは難しくなります。

この一連の流れを見ればわかりますが、パターン1さえ理解できれば、あとは少しの修正で、残りもパターンもすぐに理解できます。最初にパターン1からパターン4まで、この順番で勉強していけばわかりやすいです。バラバラに理解するのではなくて、 一連の流れで理解すれば、統計学は簡単に理解できるようになります。

また、統計的推測には今説明した区間推定の他に、もう一つの柱である仮説検定という手法があります。仮説検定は標本調査としてサンプルをいくつか調べて「この薬には薬効があるかどうか?」とか「このコインは歪んでいるか?」どうかなどを判定することに使われます。仮説検定については別のページで解説します。

目次に戻る
 
●関連ページ
区間推定
母平均の区間推定(母分散が既知の場合)
母平均の区間推定(母分散が未知&大標本の場合)
母平均の区間推定(母分散が未知&小標本の場合)
母分散の区間推定
 
*このページの動画解説もしています。

コメントは停止中です。