Regression Analysis

Pocket

Regression analysis is the most frequently used method, as correlation coefficient, to investigate the relations between data variables.

First, we will introduce the most simple pattern of regression analysis for 2-dimensional data.

Let’s consider the 2-dimensional data (X_i,Y_i)~(i=1,2,3,\cdots,n). Usually, one of the data set (variable) X_i~(i=1,2,3,\cdots,n) is cause variable (independent variable).
And the other data set (Variable) Y_i~(i=1,2,3,\cdots,n) is outcome variable (dependent variable). Then, we can investigate the causality between them. For example, smoking rate can be cause variable. Then, the probability or ratio of becoming cancer patient is the outcome variable.

単純回帰分析では、原因変数Xと結果変数Yの間に一次関数の関係があると仮定する。(これをモデル式とよぼう。)

\displaystyle Y = aX + b

 

観測データ(X_i,Y_i)~(i=1,2,3,\cdots,n)から、この式の係数abを推定するのが、もっともシンプルな形の回帰分析である。

係数を推定するために用いられるのが、最小二乗法といわれる手法である。

観測データと、先ほどのモデル式との誤差Eの2乗の合計は次で与えられる。

\displaystyle E = \sum_{i=1}^{n}\{Y_i- (aX_i + b)\}^2

 

この誤差の合計Eを最少になるようなabを求めればよい。このような問題は、偏微分法を用いて求めることができる。

詳しい計算を省略するが、結果は以下で与えられる。まず、係数aのほうが、先に求めることができる。

\displaystyle a = \frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^{n}(X_i-\bar{X})^2}

 

この係数aを用いて、係数bも求めることができる。

\displaystyle b = \bar{Y}-a\bar{X}

 

これで、めでたく原因変数Xと結果変数Yの間の関係を推定する式(モデル式)が、同定できたわけである。

例えば、喫煙率(X)と肺がんの罹患率(Y)のデータを用いた時に、aが正の値であれば、正の因果関係があることが推定される。

ただ、様々な問題で、本当に因果関係があるかどうかをいうのは結構難しい。他の第3の原因によって、見かけ上2つの変数に因果関係があるように見える場合もよくある。

たとえば、回帰分析によって、病院ごとの医師の在籍数と、患者の死亡率に正の関係a>0があることがわかったとしよう。ただ、この場合、医師が多いことと、患者が死亡しやすいことには関係がないことはすぐにわかる。ただ単に、大きい病院には重篤な患者が多く来ているだけということだ。

このように回帰分析で、因果関係を同定しようとするときは、常に見かけの因果関係に騙されないように気をつけなければならない。

Comments are closed.