Cuando hacemos análisis estadísticos sobre un dataset o una base de datos, suele ser habitual realizar un análisis de correlaciones entre las variables, con el objetivo de estudiar si existe algún tipo de relación entre las mismas.
Al hablar de correlaciones, nos referimos a realizar un estudio en el que analizaremos sí dos variables tienen comportamientos similares entre ellas.
De acuerdo a la Real Academia de la Lengua Española, literalmente: “Correspondencia o relación recíproca entre dos o más variables (cosas) o serie de cosas. En estadística, medida de la tendencia de la evolución de dos variables“.
¿Estás suscrito ya a mi lista de correo? Si te apuntas te avisaré cada vez que publique algo nuevo en la web:
¿Qué es el coeficiente de correlación lineal?
Cuando realicemos un análisis de correlaciones entre dos variables, mediremos el grado de relación entre ellas mediante el cálculo del coeficiente de correlación lineal, una medida que nos permitirá conocer la relación entre dos variables.
Coeficiente de correlación de Pearson
El coeficiente de correlación de Pearson es una medida estadística que permite calcular la relación entre dos variables, siempre que sean variables cuantitativas y continuas. Pearson es el coeficiente de correlación más utilizado para calcular relaciones de tipo lineal.
Podemos definir relación lineal de una forma simple como aquella representación gráfica de tres o más punto que dibuje una línea (dando igual el sentido de la misma).
¿Cómo interpretar el coeficiente de correlación lineal de Pearson?
El resultado de calcular el Índice de Correlación de Pearson (r, de ahora en adelante), siempre estará comprendido en el intervalo [-1, 1]. Indicando el 1 una correlación positiva total, y el -1 una correlación negativa total.
Por lo tanto:
- Si r = |1|, se tratará de una correlación será perfecta.
- Si r = 1, estaremos hablando de una correlación perfecta POSITIVA.
- Si r = -1, estaremos hablando de una correlación perfecta NEGATIVA.
- Si r = 0, diremos que no existe ninguna correlación entre las variables.
- Si r es negativo (es decir, el valor de r está comprendido entre -1 y 0), estaremos hablando de una correlación negativa entre las variables. Mientras más cercano a cero sea el valor de r, menor será la relación entre las variables, o dicho de otro modo, mientras más cerca esté r de -1, más relacionadas estarán las variables.
- Si r es positivo (es decir, el valor está comprendido entre 0 y 1), hablaremos de la existencia de una correlación positiva entre las variables. Mientras más cercano a cero sea el valor de r, menos relación habrá entre ambas variables, del mismo modo, mientras más cercano sea el valor de r a 1, más relacionadas estarán las variables.
Vamos a verlo más claro con algunos ejemplos:
ray dice
excelente…
Maria dice
Mil gracias, muy claro