Coeficiente de Correlación de Pearson

Pocket

El Coeficiente de Correlación es una medida de la relación lineal entre dos variables aleatorias cuantitativas de una poblacion, como por ejemplo, el peso y la altura de un grupo de personas.

Hay varios tipos de Coeficiente de Correlación y, entre ellos, el mas usado ampliamente es llamado el Coeficiente de Correlación de Pearson.

Consideremos una serie de medidas de dos variables (X_i,Y_i)~(i=1,2,3,\cdots,n). Estos datasets pueden representar datos de altura (X) y peso (Y) en una poblacion, o notas de las asignaturas de Matematicas (X) e Ingles (Y) obtenidas por un grupo de estudiantes.

Por tanto, el Coeficiente de Correlación C(X,Y) viene dado por

\displaystyle C(X,Y)=\frac{1}{n}\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sigma_X\sigma_Y}

 

Aqui, \bar{X} y \bar{Y} denotan la media de las variables bajo estudio X_i~(i=1,2,3,\cdots,n) y Y_i~(i=1,2,3,\cdots,n), respectivamente. Ademas, \sigma_X y \sigma_Y representan los datos de la desviacion estandar X_i~(i=1,2,3,\cdots,n) y Y_i~(i=1,2,3,\cdots,n), respectivamente.

De la definicion del Coeficiente de Correlacion C(X,Y), se puede mostrar que -1\le C(X,Y)\le 1.

cuando el coeficiente de correlacion esta proximo a 1, implica que entre las dos variables existe una fuerte correlacion. Por otra parte, cuando el coeficiente de correlacion esta proximo a -1, ambas variables estan correlacionadas negativamente. En el caso de que el coeficiente de correlacion esta proximo a cero, podemos afirmar que no existe un correlacion entre ambas variables, en un sentido u otro.

Para verificar que ambas variables estan significantemente correlacionadas o no, tenemos que prestar atencion tambien al tamaño de los datos n.

Por ejemplo, incluso aunque el coeficiente de correlacion sea 0.6, en algunos casos esa correlacion es real pero en otros puede no exister una correlacion significativa entre las variables debido al tamaño no demasiado grande de los sets de datos (variables observadas).

En general, incrementando el tamaño de los datos, el coeficiente de correlacion tendra mas margen de confianza. Este tema que es muy importante para garantizar la validez de la correlacion calculada, se explicara en mas detalle en las seccciones siguientes.

Siguiente Pagina ()

Los comentarios están cerrados.