Curso Introducción Estadística Analítica 6

0

Revista Madrileña de Medicina

Logo revista

Volumen 2, nº 10. Febrero 2014.

Formación Médica Acreditada

INTRODUCCIÓN A LA ESTADÍSTICA ANALÍTICA: INFERENCIA POBLACIONAL DE UNA VARIABLE Y DE RELACIONES BIVARIADAS

Ángel Rodríguez Laso *

Bloque 6: Asociación lineal de dos variables cuantitativas

El primer paso para valorar la asociación entre dos variables cuantitativas es dibujar un diagrama de dispersión de las mismas. Es un gráfico con dos ejes:

  • en el de abscisas (eje X) se encuentran los valores ordenados en orden creciente de una variable.

  • en el eje de ordenadas (eje Y) los de la otra.

Da igual qué variable se pone en cada eje porque la asociación que estamos estudiando es simétrica, no hay una hipótesis de causa-efecto. En el gráfico se señala con un punto la intersección de los valores de las dos variables de cada individuo. Veamos un ejemplo:

Como no podía ser de otra manera, vemos que mayores frecuencias justo después del ejercicio se corresponden con mayores frecuencias a los cinco minutos. Hay una recuperación, pero los que partían de frecuencias más altas mantienen frecuencias más altas. Las dos variables están, por tanto asociadas.

Esta valoración gráfica, siempre muy importante de hacer porque nos indica el tipo de relación entre las variables, se basa en una apreciación visual. ¿Habría alguna manera de cuantificarla matemáticamente?

Vamos a trazar dos líneas perpendiculares a los ejes que los corten en el valor medio de cada variable en esta muestra:

Bloque 6 imagen 1 diagrama dispersion

Figura 8. Diagrama de dispersión de la frecuencia cardiaca justo después de realizar un esfuerzo (Eje X) y a los 5 minutos de estar en reposo (Eje Y).

Como no podía ser de otra manera, vemos que mayores frecuencias justo después del ejercicio se corresponden con mayores frecuencias a los cinco minutos. Hay una recuperación, pero los que partían de frecuencias más altas mantienen frecuencias más altas. Las dos variables están, por tanto asociadas.

Esta valoración gráfica, siempre muy importante de hacer porque nos indica el tipo de relación entre las variables, se basa en una apreciación visual. ¿Habría alguna manera de cuantificarla matemáticamente?

Vamos a trazar dos líneas perpendiculares a los ejes que los corten en el valor medio de cada variable en esta muestra:

Bloque 6 imagen 1 diagrama dispersion 2

Figura 9. Cuadrantes de un diagrama de dispersión de una asociación de variables creciente.

Vemos que el gráfico queda dividido en cuatro cuadrantes (marcados en números romanos) y que en esta asociación creciente, casi todos los puntos están concentrados en los cuadrantes I y III. Los individuos en el cuadrante I tienen valores en las dos variables superiores a las medias muestrales. Por lo tanto, si para cada individuo de ese cuadrante restáramos su valor de X de la media de X (x- ̄x), obtendríamos siempre resultados positivos y si restáramos su valor de Y de la media de Y (y- ̄y), también obtendríamos siempre valores positivo. Si después multiplicáramos los resultados de estas restas entre sí, (x- ̄x)* (y- ̄y), el resultado sería también siempre positivo (siguiendo la consabida regla matemática de + * + = +).

¿Qué pasaría al realizar la misma operación con los individuos del cuadrante III? Sus valores son siempre inferiores a las medias muestrales, luego las restas de estos valores de las medias tendrán siempre signo negativo. Pero si multiplicamos los resultados de estas restas en cada individuo, el resultado de la multiplicación tendrá signo positivo (- * – = +). Luego en una asociación creciente, si sumamos todos los productos (x- ̄x)* (y- ̄y) de todos los individuos, que matemáticamente se escribe Σ(x- ̄x)* (y- ̄y), como van a predominar los resultados positivos el resultado será positivo.

Si la asociación fuera decreciente, es decir que a medida que aumenta una variable la otra disminuye, la mayoría de los puntos estarían en los cuadrantes II y IV. En el cuadrante II, los individuos tienen valores de X superiores a la media pero valores de Y inferiores a la media. El producto (x- ̄x)* (y- ̄y) será + * – = -. En el cuadrante IV, los individuos tienen valores de X inferiores a la media pero valores de Y superiores a la media. El producto (x- ̄x)* (y- ̄y) será – * + = -. Es decir, en una asociación decreciente, Σ(x- ̄x)* (y- ̄y) va a dar resultado negativo.

Bloque 6 imagen 3 diagrama dispersion3

Figura 10. Cuadrantes de un diagrama de dispersión de una asociación de variables decreciente.

Si en lugar de los 30 individuos con los que estamos trabajando tuviéramos 300, Σ(x- ̄x)* (y- ̄y) sería mucho mayor, porque tendría más sumandos, incluso si la asociación de las variables fuera idéntica en las dos muestras. Para evitar esta circunstancia, lo que se hace es dividir Σ(x- ̄x)* (y- ̄y) por el tamaño de la muestra.

A este resultado se le llama covarianza y se representa habitualmente con la letra p.

Bloque 6 formula 1

Este es un buen indicador de la relación de dos variables cuantitativas, pero tiene dos problemas:

 

  • En primer lugar, tiene unidades difíciles de interpretar. Si las dos variables tienen las mismas unidades tendría unidades cuadráticas, porque se multiplican en el numerador. Si tienen distintas unidades, sus unidades serían el producto de esas unidades.

  • Pero además, el indicador será más grande cuanto más dispersas sean las variables, porque las restas (x – ̄x) e (y – ̄y) darán resultados mayores. Esto impide comparar asociaciones de variables con distintas dispersiones.

 

Para evitar estos problemas, lo que se hace es dividir la covarianza por el producto de las desviaciones típicas de las variables X e Y, con lo que desaparecen las unidades y los resultados dejan de depender de ellas.

Así se obtiene el coeficiente de correlación de Pearson, que se representa por r.

Bloque 6 formula 2

Se puede demostrar matemáticamente que r sólo se puede mover entre los valores -1 y 1, incluyendo el 0, independientemente de la distribución de las variables. Un valor 0 indica ausencia de relación lineal entre las variables, pero puede haber otro tipo de relación, curvilínea por ejemplo. Por eso no basta con calcular r: es tan importante hacer el gráfico de dispersión primero.

A continuación se presentan ejemplos de qué tipos de diagramas de dispersión representan distintos valores de r:

Bloque 6 figura 4

r =1. Los puntos se alinean sobre una línea recta creciente. Da igual la inclinación de la recta.

Bloque 6 figura 5

r= -1. Los puntos se alinean sobre una línea recta decreciente. Da igual la inclinación de la recta.

Bloque 6 figura 6

r = 0,8 (izquierda) y 0,5 (derecha). La relación es creciente, pero no tan perfecta. r se aleja de 1 a medida que el huso que forman los puntos engorda.

Bloque 6 figura 7

r = 0. No hay asociación lineal entre las variables. Si dibujáramos los cuadrantes se compensarían los puntos que están en cuadrantes de multiplicaciones positivas (I y III) y negativas (II y IV).

Bloque 6 figura 8

r = 0,7. Nuevamente hay una nube de puntos circular, pero la densidad de la nube no es homogénea. Si dibujáramos los cuadrantes esta vez no se compensarían. Hay una asociación creciente fuerte.

Bloque 6 figura 9

r = 0. Hay una relación entre las variables, pero no es lineal. El coeficiente de correlación de Pearson sólo detecta relaciones lineales.

 

Como para cualquier otro indicador, deberemos calcular el intervalo de confianza de r. El razonamiento es el mismo que hemos seguido en los temas anteriores, pero el problema añadido que tenemos ahora es que, al estar limitado el valor de r entre -1 y 1, no podemos construir intervalos simétricos en torno a r cuando se aproxima a algunos de estos dos extremos, que son precisamente los más interesantes desde el punto de vista estadístico.

Para evitarlo, se realiza una transformación logarítmica del valor r…

Bloque 6 formula 3

…donde Ln es el logaritmo neperiano, y z ya no tiene por límites -1 y 1, como r, sino ±∞. Podemos entonces actuar como hemos hecho en otros intervalos de confianza y sumar y restar el error estándar de r transformado (EERT).

Bloque 6 formula 4

multiplicado por 1,96 o 2,58, en función del nivel de seguridad que queramos obtener. En este caso no hay que hacer cambios de estos coeficientes con la t de Student porque el valor de r transformado sigue una distribución normal siempre que las muestras sean de 10 ó más casos. En otro caso no se puede calcular el intervalo de confianza de r transformado.

Los límites del intervalo de confianza de r transformado así calculados tendrán que ser transformados a la inversa para obtener el intervalo de confianza de r. Las aplicaciones estadísticas realizan todas estas transformaciones y contra-transformaciones y proporcionan el intervalo de confianza de r.

También puede hacerse un contraste de hipótesis. En este caso, el valor de comparación más interesante es r=0, que indicaría una ausencia de relación lineal entre las variables. En este valor de r caso no estamos condicionados por sus límites, por lo que no será necesario transformar r, sino que lo dividiremos directamente por el error estándar de r (EER) que es:

 Bloque 6 formula 5

Con eso obtendremos el número de EERs que r se aleja de 0. Buscando ese número de veces en la tabla de la t de Student para n-2 grados de libertad (porque un valor de cada variable está condicionado por la media de esa variable), obtendremos el error de equivocarnos al decir que r es distinto de 0. El contraste, como siempre, puede ser bilateral (planteamos la hipótesis de que r es distinto de 0, pero no en qué dirección) o unilateral (sabemos que r sólo puede ser mayor o menor que 0, lo que sucederá raramente).

Aparte del criterio de que n sea ≥10 para poder calcular su intervalo de confianza, para poder calcular r es necesario que la distribución conjunta de las variables X e Y siga una ley normal bivariante. No es fácil verificar gráficamente que esta condición se cumple, porque una distribución normal bivariante es un concepto tridimensional. Pero sabemos que si la distribución sigue esa ley, tendrá dos propiedades que pueden comprobarse fácilmente:

  1. El diagrama de dispersión tiene forma elíptica.
  2. Las dos variables tienen distribuciones normales.

En el caso de que no se cumplan estas condiciones, será necesario transformar las variables o recurrir a una prueba no paramétrica, el coeficiente de correlación ordinal de Spearman.

 Coeficiente de correlación ordinal de Spearman

Para el cálculo del coeficiente de correlación de Spearman se ordenan los valores de cada una de las variables y a cada individuo se le asigna el número de orden del valor de su variable, en lugar del valor de esta. Para cada individuo se calcula la diferencia en números de orden (d) y se eleva al cuadrado (d2). La fórmula del coeficiente de Spearman es:

Bloque 6 formula 6

siendo n el número de parejas obtenidas, que coincide con el de individuos analizados (cada pareja corresponde a un sólo individuo).

También tiene un rango de -1 a 1. Si los individuos tienen el mismo número de orden en las dos variables, el coeficiente será de 1 (dado que la fracción de la fórmula tendrá como resultado 0). Si los órdenes están completamente invertidos (por ejemplo un individuo tiene el valor más alto de una variable y el más bajo de otra, el siguiente individuo el segundo valor más alto de una y el segundo más bajo de la otra y así sucesivamente) el coeficiente será de -1.

 

 

 

Ángel Rodríguez Laso es especialista en Medicina de Familia y Comunitaria, Doctor en Medicina, Máster en Salud Pública e investigador en el Matía Instituto Gerontológico

 

Anterior (Comparación de tres medias)    

 

 

Compartir:

Deja una respuesta

¡Usamos cookies propias y de terceros para mejorar tu experiencia en esta web! Si sigues navegando, consientes y aceptas estas cookies en tu ordenador, móvil o tablet. Más información sobre las cookies y cómo cambiar su configuración en tu navegador aquí.

x