Curso Introducción Estadística Analítica 1

0

Logo revista

Nº 9. Enero 2014.

Formación Médica Acreditada

INTRODUCCIÓN A LA ESTADÍSTICA ANALÍTICA: INFERENCIA POBLACIONAL DE UNA VARIABLE Y DE RELACIONES BIVARIADAS

Información para realizar el curso y obtener la acreditación

Presentamos a continuación la primera entrega del curso “Introducción a la Estadística Analítica: inferencia poblacional de una variable y de relaciones bivariadas”. Se trata de un módulo de contenido teórico de los seis de que consta el curso. Para la realización de dicho curso y su consiguiente acreditación, será necesario inscribirse (mediante el documento adjunto) y realizar, además, los módulos prácticos y el trabajo final de evaluación, accesibles en la plataforma de formación de AMYTS para todos los alumnos inscritos en el curso. Cada módulo teórico, que irá apareciendo en las sucesivas entregas semanales de la e-revista, lleva su correspondiente ejercicio práctico.

Bloque 1: Introducción a la Estadística Analítica. Estimación de una media

Introducción

La estadística descriptiva, cuyo conocimiento damos por supuesto en este curso, nos permite saber de forma aproximada cómo es la distribución de una muestra, mediante:

  • frecuencias absolutas y relativas para variables categóricas

  • medidas de tendencia central (media, mediana y moda) y de dispersión (varianza y desviación estándar) para variables continuas.

A estas medidas las llamamos estimadores o estadísticos. Adoptan un valor concreto para cada muestra, denominado estimación. La estimación del estadístico media en una muestra se representa por x, y la estimación del estadístico desviación típica por s.

Sin embargo, nuestro objetivo último no es describir una muestra, sino conocer la población de la que se ha obtenido dicha muestra. Al valor de los estimadores en la población se les llama parámetros. El parámetro media se representa por μ y el parámetro desviación típica (o estándar) por σ. Calcular los parámetros de una población es lo que pretende la estadística analítica o inferencial.

La Estadística Analítica o Inferencial pretende llegar a conclusiones sobre la distribución de una variable y sus asociaciones en una población a partir de la distribución de esa variable o variables en una muestra extraída de ella.

Dentro de la estadística analítica hay dos aproximaciones:

  • Por una parte, podemos calcular un intervalo de valores en el que estaremos bastante seguros que estará incluido el parámetro que nos interesa. Es lo que conocemos como estimación de parámetros.

Con este tipo de procedimientos, aprenderemos a construir un intervalo alrededor del resultado que hayamos obtenido, bien como media de una variable cuantitativa, bien como proporción de una cualitativa, en el que pueda encontrarse, con gran probabilidad, el parámetro deseado a nivel poblacional, sea éste una media o una proporción. 

  • Por otra, podemos establecer la hipótesis de que un parámetro es diferente a un valor determinado (un valor de referencia), o que la diferencia entre dos parámetros es distinta a un valor preestablecido, como por ejemplo cero. Estaremos haciendo entonces un contraste de hipótesis o prueba de significación.

Y así podremos conocer si la reducción conseguida por un determinado fármaco o intervención en un grupo de pacientes con dislipemia es significativa estadísticamente por comparación bien con un grupo control (al que no administramos fármaco o sometemos a intervención), bien con sus valores de partida de los mismos individuos. O si la distribución de valores de colesterol en sangre es igual en una subpoblación determinada, por ejemplo entre los individuos de una deterinada raza, que en el conjunto de la población (que actuaría como valor de referencia).

Esta perspectiva de la estadística analítica es la llamada “frecuentista”, y es la que seguiremos en curso. Existe otra, la “bayesiana” que, aunque prometedora, todavía no está suficientemente implantada.

Estimación de una media

Partimos de un ejemplo que ya utilizamos en un curso previo, el de Introducción a la Estadística, sobre la distribución de los niveles de colesterol en la población española; en él observábamos cómo la media (μ) de esa distribución en varones de entre 45 y 64 años era de 206,5 mg/dl, y su desviación estándar (σ) era de 41,23 mg/dl. Supongamos que la población asignada a mi centro de trabajo sanitario tiene los mismos parámetros. ¿Qué ocurrirá si extraigo varias muestras poblacionales de ese mismo grupo de edad y sexo en mi centro, recurriendo a métodos aleatorios (por ejemplo, otorgando un número a cada individuo de la población y ayudándome de una tabla de números aleatorios)?

Pues que cada muestra obtenida de esa forma tendrá estimaciones (media y desviación típica muestrales) distintas, porque no habrá dos muestras exactamente iguales ya que nos encontramos en el ámbito de la variabilidad de los fenómenos biológicos. Sin embargo, si vamos anotando tanto las medias como las desviaciones típicas de cada una de las muestras veremos que se van agrupando en torno a los valores (parámetros) poblacionales, de forma simétrica, a uno y otro lado de los mismos, y que son más frecuentes los valores más cercanos a esos valores poblacionales. La distribución de las medias muestrales anotadas tendrá su propia media y su desviación típica, y lo mismo ocurrirá con la distribución de desviaciones típicas.

Se puede demostrar matemáticamente que la desviación típica de las medias muestrales, que se conoce como error estándar de la media (EEM), es igual a:

σ / n

siendo σ la desviación estándar de la distribución de la variable en la población (dato que es posible que no conozcamos; más adelante veremos cómo resolver esto).

El error estándar de la media disminuye al incrementar el tamaño de las muestras que utilicemos. Pero lo hace de forma no lineal, ya que la n en la fórmula del EEM está bajo una raíz cuadrada: eso quiere decir que, para reducir el EEM a la mitad (y hacer el intervalo de confianza más pequeño aumentando la precisión) precisamos multiplicar el tamaño de la muestra por 4. Esto da idea de la dificultad que elevar la precisión supone a nivel organizativo e incluso económico en muchas ocasiones.

Si las muestras son pequeñas, pongamos que de cinco individuos (n=5), es posible que haya valores extremos en ellas que pesen excesivamente en el cálculo de la correspondiente media, con lo que la distribución de medias puede no ser simétrica e incluso no centrada en la media poblacional (Figura 1). Pero si vamos aumentando el tamaño de las muestras (por ejemplo, con n=30), la distribución irá haciéndose cada vez más centrada en la media poblacional y simétrica (Figura 1).

Que la distribución de medias muestrales se centra en la media poblacional cuando se toman muestras suficientemente grandes es lo que se conoce como ley de los grandes números y tiene un correlato intuitivo: nos “fiamos” más de las estimaciones de una muestra grande que de una muestra pequeña.

Grafico barras bloque 1
Figura 1. Distribución muestral de las medias de colesterol de 100 muestras de tamaño 5 (izquierda) y 30 (derecha) elegidas aleatoriamente de una población normal de media 206,5 mg/dl y desviación estándar 41,23 mg/dl. Frecuencias absolutas.

 

Como vemos en la Figura 1, al aumentar el tamaño de la muestra también se reduce la dispersión de la curva de distribución de medias muestrales que se obtiene, que va pareciéndose cada vez más a la curva normal. Esto no es sorprendente teniendo en cuenta que el propio dato en sí de este ejemplo, el nivel de colesterol, se distribuye también de forma normal en la población. Pero también pasaría aunque la variable no tuviera una distribución normal. Es lo que se conoce como teorema central del límite.

El teorema central del límite, esencial para la Estadística Inferencial, establece que si tomamos muestras suficientemente grandes (≥30) de una población, la distribución muestral de medias tenderá a seguir una distribución normal aun cuando la variable no tuviese una distribución normal en la población.

Sabiendo esto, podremos aplicar las propiedades de la distribución normal a nuestra distribución de medias, y calcular el intervalo que debería contener el 95% de las medias muestrales, que, como ya sabemos, debe obtenerse sumando y restando a la media 1,96 veces la desviación típica de nuestra distribución, que es el error estándar de la meda:

μ ± 1,96*EEM

siendo μ la media poblacional y EEM la desviación típica de la distribución de medias, que es un concepto diferente al de desviación típica o estándar de cualquiera de nuestras muestras. 1,96 es el factor por el que multiplicamos el EEM para que incluya, a uno y otro lado de la media, al 95% de la distribución; en los cálculos manuales se redondea 1,96 a 2.

Si quisiéramos el intervalo que debería contener el 99% de las medias muestrales, la fórmula sería:

μ ± 2,58*EEM

(2,6 en los cálculos manuales).

 

¿Y qué pasa si no conocemos los parámetros de la población (media y desviación típica)?

Todo este ejercicio ha partido de la base de que conocíamos la media y la desviación típica en la población y obteníamos numerosas muestras, pero en la vida real sucede todo lo contrario: desconocemos los parámetros poblacionales y para averiguarlos no contamos más que con una muestra. ¿Qué hacemos entonces? Pues asumir que la media de nuestra muestra es la media poblacional y construir a partir de ella un intervalo sumándole y restándole 1,96 ó 2,58 (según el intervalo que queramos construir) multiplicado por el EEM. A este intervalo lo llamamos intervalo de confianza, porque por la forma en que lo hemos construido, tenemos una confianza o seguridad del 95 ó 99% según corresponda de que contendrá la media poblacional.

Pero… ¿cómo calculamos el EEM, si no conocemos la desviación estándar en la población (σ)?

Aquí viene en nuestra ayuda la distribución t de Student. Su utilidad consiste en que nos proporciona unos coeficientes más grandes que 1,96 ó 2,58 que nos permiten calcular un intervalo de confianza de la media poblacional a partir de la desviación típica de la muestra en lugar de la de la población.

Para saber cuál es el valor del nuevo coeficiente que debemos utilizar, es necesario conocer, en primer lugar, el concepto de “grados de libertad” en la distribución de una muestra. Se refiere al número de términos que son realmente libres. Y es que, una vez que conocemos su media , el valor correspondiente al último de los sujetos de una muestra no nos aporta ninguna información, ya que se puede calcular a partir del resto de valores de la muestra y de su media. Por eso en este caso los grados de libertad de esa muestra serían n-1. El concepto de grados de libertad quedará más claro cuando estudiemos la asociación entre variables categóricas.

De momento, nos basta saber que los coeficientes de la distribución t de Student aparecen recogidos en tablas. Encontraremos el valor deseado en la confluencia entre los grados de libertad de nuestra muestra (n-1) y el error α que tomemos como referencia (que es la proporción complementaria a la del intervalo de confianza; ver más adelante). Es importante distinguir si estamos realizando una prueba a dos colas (contraste bilateral, considerando ambos extremos de la curva, que es lo habitual) o a una sola cola (contraste unilateral, excepcional), porque los coeficientes se buscan en columnas distintas (también lo explicaremos más adelante). Veremos en dichas tablas que, cuanto mayor es el tamaño de la muestra, los coeficientes que las tablas nos proporcionan se parecen más a los ya establecidos de la curva normal, 1,96 para un intervalo de confianza del 95% (error α de 0,05), y 2,58 para un intervalo de confianza de 99% (error α de 0,01).

Una vez conocido todo esto, tan sólo nos queda proceder de la siguiente manera: asumimos la desviación estándar de la muestra, calculamos a partir de ella el valor del EEM (con la fórmula ya conocida, σ/√n), y la multiplicamos por el valor de la t de Student que corresponda a nuestros grados de libertad (recordemos, n-1) y al error α que deseemos utilizar. Sumando y restando el valor obtenido del de la media, tendremos el intervalo de confianza que buscábamos.

Para ejemplificar el cálculo del intervalo de confianza, supongamos que en una muestra de 30 individuos de nuestro centro sanitario hemos obtenido una media muestral de 204 mg/dl y una desviación típica muestral de 45 mg/100ml. El intervalo de confianza al 95% sería:

204 ± 2,05*8,2 = 187,2 a 220,8 mg/dl.

(Utilizamos 2,05 en lugar de 1,96 según el valor obtenido para 29 grados de libertad (30-1) y un error alfa de 0,05 en una prueba a dos colas en la tabla de los valores t de Student).

Este procedimiento sólo puede emplearse cuando el tamaño de la muestra es mayor de 30 (lo que se considera muestra grande) o cuando la distribución de la variable en la población es normal. Hay que tomar este valor de 30, como todos los que indican la elección de determinados procedimientos en estadística, como valores orientativos, no exactos. En este caso, hay una cierta “compensación” entre tamaños de muestra y normalidad de las variables. Si una variable tiene una distribución no muy alejada de la normal, se pueden considerar “grandes” tamaños de muestra un poco por debajo de 30. Pero si la distribución está muy alejada de la normal, incluso tamaños de muestra por encima de 30 podrían no considerarse suficientes para aplicar el teorema central del límite. Como procedimiento general, recomendamos hacer un histograma de la variable en cuestión. Si no se aleja mucho de una distribución normal, puede considerarse que la variable tiene una distribución normal en la población y considerar muestras grandes las que pasan de 20. Preferimos estudiar la normalidad con gráficos antes que con test estadísticos como el de Kolmogorov-Smirnov o el de Shapiro-Wilk para ser más flexibles en la valoración de la normalidad y no depender exclusivamente de un resultado de un test. Si la forma se aleja mucho de la normal o si la muestra tiene un tamaño demasiado pequeño, no se puede calcular un intervalo de confianza salvo que se transforme la variable para que adquiera una forma más “normal”.

Una transformación que se usa habitualmente cuando la variable tiene asimetría positiva, como el colesterol del que una mayoría de la población tiene valores en torno a la media pero algunos individuos tienen valores muy altos, es la logarítmica. Transformar simplemente es calcular el logaritmo de cada uno de los valores de la variable y trabajar luego con los valores logarítmicos en lugar de los originales. Hay que tener en cuenta que no se pueden tomar logaritmos de 0, luego la existencia de estos valores en la variable original impiden el uso de esta técnica.

Es muy importante tener claro que la media obtenida en nuestra muestra sirve para construir el intervalo de confianza en el que se debería encontrar la media real de la variable en la población, pero esto no significa que esa estimación sea más probable que cualquiera de los otros valores que incluye ese intervalo. Incluso puede suceder que el intervalo calculado por este procedimiento haya partido de una estimación de la media que está muy alejada de la media poblacional, por lo que ese intervalo de confianza no la incluya. Habríamos tenido en ese caso mala suerte, porque esto sólo debería ocurrir en el 5% de los casos (o en el 1%, según el intervalo que hayamos construido). Pero es una posibilidad que siempre habremos de tener en cuenta.

El intervalo de confianza incluirá o no la media poblacional, no lo sabemos, pero sí podremos decir que el método seguido para construirlo nos da una seguridad del 95% de que la incluye. Es decir, que en un 5% de los casos la media poblacional estará fuera del intervalo. Ese 5% es nuestra probabilidad de equivocarnos el estimar la media poblacional, es decir, el error alfa (α) de nuestro experimento. Con toda esta explicación debería quedar claro que no tiene sentido decir que el intervalo de confianza al 95% tiene una probabilidad del 95% de contener la media poblacional. La contiene o no la contiene, pero el procedimiento que usamos para construirlo tiene un 95% de probabilidad de contenerla. También debería estar claro que una estimación puntual sin su intervalo de confianza es completamente insuficiente, pues ya sabemos que la media de la muestra no tiene por qué coincidir con la media de la población (y, de hecho, lo más frecuente es que no coincida).

Si la muestra es un porcentaje muy alto de la población habría que multiplicar el EEM, además de por el factor 1,96 ó 2,58, por el siguiente factor reductor (su valor siempre es inferior a 1):

.Formula bloque 1 1

La lógica de usar este factor es que si la muestra es una parte importante de la población será más probable que su media y desviación estándar coincidan con la de la población, con lo que podremos reducir el intervalo de confianza utilizando este factor. En la práctica sólo se usa cuando la muestra supone más del 5% de la población.

Contraste de hipótesis para una media

Una vez que hemos entendido cómo se construye el intervalo de confianza de la estimación de parámetros, no nos costará comprender cómo se realizan los contrastes de hipótesis, también llamados pruebas de significación, que producen la tan buscada p de los análisis estadísticos.

En un contraste partimos de la hipótesis de que el parámetro poblacional es igual a un valor elegido por nosotros. Este tipo de hipótesis de igualdad se llama hipótesis nula. La contraria, que los valores son distintos, se llama hipótesis alternativa.

Supongamos que planteamos la hipótesis de que el valor poblacional de colesterol medio en la población de la que he obtenido la muestra es igual a 170. El intervalo de confianza al 95% que hemos construido anteriormente (187,2 a 220,8 mg/dl) no incluye este valor, lo que nos permite asegurar con una probabilidad de equivocarnos (error alfa) menor del 5% que la media de nuestra población es distinta a 170. Cuando esta probabilidad de error es suficientemente baja rechazamos la hipótesis nula, es decir, que el parámetro poblacional es igual a un valor determinado.

Por convención, se considera que menos de 0,05 es una probabilidad suficientemente baja y se denomina resultado estadísticamente significativo.

Sin embargo, yo puedo intentar reducir mi nivel de error calculando el intervalo de confianza al 99%, que será más grande porque en lugar del coeficiente de 2,05 que he tenido que usar (valor de la t de Student) usaré el de 2,76 que es el valor de la t de Student para ese tamaño de muestra y un nivel de significación del 99%. El nuevo intervalo de confianza al 99% será 181,4 a 226,6 mg/dl. Nuevamente no contiene el valor 170 y otra vez puedo rechazar la hipótesis nula de igualdad pero esta vez con un nivel de error menor de 0,01. Así sucesivamente podríamos ir aumentando el nivel de seguridad y reduciendo el de error hasta que el intervalo incluyera el 170. El nivel de error del intervalo justo anterior a este que incluyera 170 sería el límite más bajo de la p.

Para no tener que seguir este procedimiento tedioso, lo que hacen las aplicaciones estadísticas es restar de la media muestral el valor con el que la queremos comparar y dividir el resultado por el EEM. Obtienen lo que se denomina valor de la prueba t, que es el número de EEMs que la media muestral se aleja del valor. Ese valor t se compara con los que están tabulados para los grados de libertad correspondientes(tamaño de muestra menos 1) y distintos niveles de error de rechazar la hipótesis nula, que es el valor p que devuelven las aplicaciones estadísticas (o que podríamos encontrar en las tablas de la distribución t de Student).

Supongamos que el intervalo de confianza al 95% hubiera incluido el valor 170. Entonces nos limitaríamos a decir que no podemos rechazar la hipótesis nula. Pero esto no es lo mismo que decir que la media poblacional es igual a ese valor. Porque yo no puedo descartar que con una muestra más grande que produjera un intervalo de confianza más pequeño no se pudiera rechazar la hipótesis nula.

Por eso no se puede dar nunca como conclusión de una prueba de significación que un parámetro es igual al valor con el que se compara. Podemos decir que no hemos podido demostrar que sea diferente, que no es lo mismo.

Por ser más informativos sobre los valores que puede tener la media poblacional, se tiende a preferir los intervalos de confianza a los niveles de significación.

Falta por explicar el concepto de contraste unilateral o bilateral, al que ya nos hemos referido más arriba. En el ejemplo anterior, construimos el intervalo de confianza sumando y restando a la media muestral, con lo que según las propiedades de la ley normal quedan un 2,5% de valores fuera del intervalo a cada lado . La suma es 5%, que es el nivel de error. Al aplicar el contraste de hipótesis a este intervalo, estamos planteando que la media poblacional es distinta a 170, pero sin especificar si es mayor o menor. Se trata de un contraste bilateral.

Pero si nosotros podemos estar seguros de que la media poblacional por ejemplo siempre va a estar por encima o a lo sumo al mismo nivel que el valor, porque otro resultado es imposible, entonces podemos “concentrar” el 5% de valores fuera del intervalo de confianza a un lado de la media, el más cercano al valor de comparación. Esto producirá un “encogimiento” del intervalo por ese lado con lo que más valores de referencia quedarán fuera de él y será más fácil encontrar un valor de p significativo (Figura 2). Pero para poder utilizar esta ventaja tenemos que poder demostrar que la media poblacional sólo puede ser mayor (o en el caso contrario menor) que el valor de referencia y, como esto es difícil, no se suelen usar los contrastes unilaterales.

Grafico curva bloque 1

Figura 2. Para una media muestral de 185 mg/dl de colesterol y una desviación típica de 45 mg/dl, el intervalo de confianza de la media al 95% (rayas negras) incluye el valor 170, por lo que no podemos rechazar la hipótesis nula en un contraste bilateral (“la media es diferente a 170”) con una p<0,05. Pero si podemos plantear un contraste unilateral (la media es superior a 170, línea roja) que concentra todo el error en un lado de la curva, sí que podemos rechazar la hipótesis nula con ese mismo nivel de significación.

 

Ángel Rodríguez Laso es especialista en Medicina de Familia y Comunitaria, Doctor en Medicina, Máster en Salud Pública e investigador en el Matía Instituto Gerontológico 

 

      Siguiente (Estimación de un porcentaje. Relación entre variables)
Compartir:

Deja una respuesta

¡Usamos cookies propias y de terceros para mejorar tu experiencia en esta web! Si sigues navegando, consientes y aceptas estas cookies en tu ordenador, móvil o tablet. Más información sobre las cookies y cómo cambiar su configuración en tu navegador aquí.

x