Curso Introducción Estadística Analítica 3

0

Revista Madrileña de Medicina

Logo revista

Nº 9. Enero 2014.

Formación Médica Acreditada

INTRODUCCIÓN A LA ESTADÍSTICA ANALÍTICA: INFERENCIA POBLACIONAL DE UNA VARIABLE Y DE RELACIONES BIVARIADAS

Ángel Rodríguez Laso *

Bloque 3: Comparación de dos medias

En este módulo explicaremos como se comparan dos medias obtenidas a partir de dos muestras independientes por medio de una prueba t. Veremos cuáles son los requisitos para aplicar el procedimiento general paramétrico y qué hacer cuando no se cumplen. Después estudiaremos el caso de dos medias obtenidas de los mismos sujetos, lo que se conoce como muestras pareadas o dependientes.

COMPARACIÓN DE DOS MEDIAS INDEPENDIENTES

La lógica del procedimiento de comparación de medias es calcada a la de la estimación de una media, con la diferencia de que en este caso trabajamos con la distribución muestral de la diferencia de medias.

Supongamos que tenemos dos centros sanitarios, A y B, con una distribución de niveles de colesterol en hombres de 45 a 64 años igual a la de la población general. La diferencia de medias poblacional será 0, porque las dos poblaciones tienen la misma media. Ahora obtenemos una muestra de 5 individuos de uno de los centros y otra muestra de 5 individuos del otro centro. Calculamos la media en cada muestra y restamos una de la otra.

Si repetimos el procedimiento 100 veces obtendremos valores de la diferencia de medias distintos cada vez. Si los anotamos, veremos que se distribuyen aproximadamente en torno a 0 con una forma no muy asimétrica y con mayor presencia de valores cercanos a 0 (Figura 5). Si en vez de 5 cogemos 30 elementos en cada muestra 100 veces, la distribución se centra en 0 (por la ley de los grandes números, ya que 0 es la diferencia de medias poblacional), se hace simétrica, se adelgaza y empieza adoptar forma de campana (Figura 1).

Bloque 3 FIGURA 1

Figura 5. Distribución muestral de la diferencia de medias de colesterol de 100 muestras de tamaño 5 (izquierda) y 30 (derecha) elegidas aleatoriamente de dos poblaciones normales de media 206,5 mg/dl y desviación estándar 41,23 mg/dl. Frecuencias absolutas.

Independientemente de la forma de la distribución de la población de la que se han originado las muestras, el teorema central del límite nos indica que a partir de 30 elementos por muestra, la distribución muestral de la diferencia de medias sigue una curva normal. Es decir, de la misma manera que hacíamos para la estimación de una media, podremos construir un intervalo de confianza al 95% alrededor de la diferencia de medias obtenida con la siguiente fórmula:

A-x̄B ± 1,96 * EEDM

donde x̄A y x̄B son las medias de cada población y EEDM es el error estándar de la diferencia de medias.

En la situación habitual no conocemos las medias poblacionales y contamos con sólo una muestra por población. Para poder calcular entonces el intervalo de confianza deberemos hacer algunos ajustes que, a diferencia de lo que pasaba en la estimación de una media, afectarán tanto al coeficiente por el que se multiplica como al EEDM en función de otro factor que es la homogeneidad de las varianzasde las muestras.

Varianzas homogéneas es sinónimo de iguales. La homogeneidad se estudia usualmente por medio del test de Levene, aunque también se puede utilizar una prueba F, que explicaremos más adelante en el contexto de la comparación de tres o más medias. En ambos tests, un resultado significativodescarta que las varianzas sean homogéneas. Por el contrario, un resultado no significativo implica que las varianzas son homogéneas.

  1. Si las varianzas de las dos muestras son homogéneas, la fórmula del EEDM es:
    Bloque 3 FORMULA 1

    y el coeficiente que se utiliza en lugar de 1,96 es tna+nb-2, donde na, sa, nb y sb son el tamaño y la desviación estándar de cada una de las muestras. Tendríamos, pues, que acudir a las tablas de la distribución t de Student, que ya conocemos, y buscar el factor a multiplicar por nuestro EEDM según el intervalo de confianza que queramos construir y el número total de grados de libertad, que es igual al número total de elementos de una y otra muestra, restándole dos unidades (uno de los individuos de cada muestra).
  2. Si las varianzas no son homogéneas, en lugar sa y sb se utiliza una desviación estándar ponderada a partir de ellas. Además, para elegir el coeficiente t se utilizan unos grados de libertad calculados a partir de una fórmula que tiene en cuenta las varianzas y los tamaños muestrales (fórmula de Welch).

Las aplicaciones estadísticas hacen los cálculos para las dos situaciones, varianzas homogéneas y no homogéneas, y dejan a criterio del investigador qué resultado elegir en función del test de Levene o la prueba F.

Para poder usar este procedimiento de cálculo del intervalo de confianza deben cumplirse las condiciones ya expuestas en la estimación de una media: que las muestras tengan 30 ó más individuos cada una o que procedan de poblaciones que siguen una distribución normal, lo que se comprueba estudiando la normalidad de la muestra. Si alguna de las muestras es pequeña y no se aproxima a la distribución normal se puede, o bien transformar la variable para ver si se consigue una distribución normal, o bien utilizar la prueba no paramétrica U de Mann-Whitney.

Contraste de la diferencia de medias

Como en la estimación de una media, en la comparación de dos también se puede hacer un contraste de hipótesis. La principal diferencia es que en este caso destaca un valor para comparar por encima de los otros: el cero. Efectivamente, la hipótesis nula que se suele plantear en una comparación de medias es que no haya diferencias entre ellas o, lo que es lo mismo, que el resultado de restarlas sea cero.

Se procede como en el contraste de una media, en la que se denomina prueba t de comparación de medias:

  1. Primero se resta cero, que es el valor de referencia, de la diferencia de medias que hemos encontrado en nuestras muestras. El resultado, por supuesto, es la diferencia de medias encontrada.

  2. Después se divide por el EEDM, con lo que se obtiene el número de EEDMs que la diferencia de medias encontrada se aleja de cero. Ese valor, t, se compara con los que están tabulados para los grados de libertad (suma de los tamaños de cada muestra menos 2) y un nivel de error de rechazar la hipótesis nula, que es el valor p que devuelven las aplicaciones estadísticas.

  3. Al igual que al calcular el intervalo de confianza de la diferencia de medias, tendremos que determinar cuál es el tamaño de las muestras, si sus distribuciones son normales y si las varianzas son homogéneas, para decidir si es correcto utilizar una prueba t y si debemos leer el resultado correspondiente a varianzas homogéneas (o iguales) o no homogéneas. Así mismo, tendremos que decidir de antemano si vamos a usar un contraste unilateral (lo que nos interesa contrastar es que una de las dos muestras es mayor o igual que la otra pero nunca menor) o bilateral (sólo planteamos que hay una diferencia, pero no la dirección de la diferencia).

Prueba U de Mann-Whitney

Cuando no se cumplen los criterios para aplicar las pruebas paramétricas, por ejemplo cuando la variable de interés es ordinal o se aleja mucho de la distribución normal y el tamaño de la muestra no es suficientemente grande, hay que usar las no paramétricas.

Este tipo de pruebas se basan en lógicas muy simples. Son menos potentes que las pruebas paramétricas: eso significa que es más difícil que rechacen la hipótesis nula y encuentren diferencias estadísticamente significativas. Si lo hacen, podemos estar seguros de que con una prueba paramétrica también habríamos conseguido un resultado significativo. Las pruebas no paramétricas no pueden proporcionar intervalos de confianza, así que sólo contrastan hipótesis.

La prueba no paramétrica que se utiliza para comparar una variable continua u ordinal en dos poblaciones es la prueba U de Mann-Whithney. En ella, lo que se hace es:

  1. ordenar por orden creciente a los individuos según el valor de la variable de interés e independientemente de a qué muestra pertenezcan.

  2. Se le asigna a cada individuo el valor del ordinal en que se encuentra en la ordenación.Si hay empates, se otorga como valor ordinal el valor medio de los que les corresponderían a cada uno de los empatados (es decir, si hay empate para tercer, cuarto y quinto puestos, se les otorga a todos ellos el valor 4º, pues 4 es la media de 3, 4 y 5)

  1. Después se suman los ordinales de cada muestra por separado, lo que proporcionará un estadístico U para cada una.

  2. El más alto de los índices U se compara con una tabla que indica el valor más alto del índice U para unos determinados tamaños de muestra que no sería significativo a un nivel determinado de seguridad. Si supera ese valor, podemos asegurar que las dos muestras tienen distribuciones de valores distintos.

Las aplicaciones estadísticas dan el resultado directamente.

COMPARACIÓN DE DOS MEDIAS PAREADAS

Cuando las dos variables están relacionadas, como cuando por ejemplo son mediciones realizadas en distintos momentos de los mismos individuos, hablamos de muestras pareadas o dependientes.

Método paramétrico

En este caso no se debe realizar una prueba t de comparación de las medias de la primera medida y la segunda. Como los dos valores proceden del mismo individuo, lo que se debe hacer es restar los valores de cada individuo en las dos medidas. Conseguiremos una distribución de las diferencias que si en un histograma es normal o no muy alejada de la normal pero con 30 ó más efectivos, nos permitirá aplicar la ya conocida técnica de usar la media de las diferencias como centro del intervalo y restar y sumar a cada lado el valor de la t de Student correspondiente multiplicado por el error estándar de la diferencia de medias pareadas (EEDMP), cuya fórmula es:

Bloque 3 FORMULA 2

donde es la desviación típica de las diferencias y n el número de individuos.

También como hacíamos en el contraste de hipótesis de medias de muestras independientes, podemos plantear una hipótesis nula de que no hay diferencias entre las dos medidas, con lo que la media de diferencias entre las medidas sería 0. Dividiríamos la media de las diferencias obtenidas por el EEDMP para encontrar el valor t que tendrá asociado un nivel de significación.

Prueba T de Wilcoxon

Si no se cumplen los requisitos para usar la prueba paramétrica hay que recurrir a la prueba no paramétrica T de Wilcoxon.

El razonamiento del que parte esta prueba es que si la diferencia entre dos variables pareadas en la población fuera 0, deberíamos haber hallado el mismo número de resultados de la resta de las medidas positivas y negativas. La prueba T tiene además en cuenta el tamaño de las diferencias. Para realizarla, hay que:

  1. ordenar las diferencias por orden creciente desde la negativa más baja hasta la positiva más alta.

  2. Se eliminan los sujetos con diferencia 0. Al resto, se les asigna un ordinal.

  3. Se suman entonces los ordinales de las diferencias positivas por un lado y los de las diferencias negativas por otro.

  4. Se toma el resultado de la suma más alto (valor T) y se compara con los de una tabla confeccionada a partir de la n de la muestra y los distintos niveles de error alfa. Como en la prueba U de Mann-Withney, si el valor T supera el más alto del asignado a un tamaño de muestra y un nivel de error determinado, se puede asegurar que la diferencia entre las distribuciones es significativa con un nivel de error igual al que viene en la tabla.

Cuando el número de individuos es igual o mayor de 10, las aplicaciones informáticas dan el resultado de la prueba. Si la muestra está entre 5 y 9 individuos hay que consultar una tabla que también ofrecen las aplicaciones. Si es menor de 5, no se puede utilizar esta prueba.

 

Ángel Rodríguez Laso es especialista en Medicina de Familia y Comunitaria, Doctor en Medicina, Máster en Salud Pública e investigador en el Matía Instituto Gerontológico

 

 Anterior (Estimación de un porcentaje. Relación entre variables)     Siguiente (Comparación y asociación de variables cualitativas)

 

Compartir:

Deja una respuesta

¡Usamos cookies propias y de terceros para mejorar tu experiencia en esta web! Si sigues navegando, consientes y aceptas estas cookies en tu ordenador, móvil o tablet. Más información sobre las cookies y cómo cambiar su configuración en tu navegador aquí.

x