Curso Introducción Estadística Analítica 2

0

Revista Madrileña de Medicina

Logo revista

Nº 9. Enero 2014.

Formación Médica Acreditada

INTRODUCCIÓN A LA ESTADÍSTICA ANALÍTICA: INFERENCIA POBLACIONAL DE UNA VARIABLE Y DE RELACIONES BIVARIADAS

Ángel Rodríguez Laso *

Bloque 2: Estimación de un porcentaje. Relación y asociación entre variables

En el módulo anterior hemos visto cómo se estima la media poblacional a partir de una muestra de una variable cuantitativa. ¿Podemos hacer lo mismo con una variable categórica?

Estimación de una proporción

Una variable categórica se describe por la proporción con que aparece cada categoría.

Grafico barras bloque 2

Figura 3. Distribución muestral de proporciones de pacientes con 200 mg/dl de colesterol o más en 100 muestras de 5 individuos de una población donde el 56% de los individuos tienen esos valores de colesterol.

Vamos a partir del supuesto más sencillo, que es cuando la variable es dicotómica. Siguiendo con el ejemplo del colesterol en el centro sanitario de trabajo, vamos a trabajar con el porcentaje de pacientes de 45 a 64 años que tienen 200 mg/dl ó más de colesterol (variable dicotómica: Tiene 200 mg/dl ó más / tiene menos de 200 mg/dl). Supongamos que yo sé que en la población de pacientes del centro hay un 56% que tienen un nivel de colesterol igual o superior a 200 mg/dl. Si tomamos muestras repetidamente, cada una tendrá un porcentaje distinto de pacientes que superan este nivel de colesterol. Como en el caso de la distribución muestral de medias, los porcentajes obtenidos tenderán a agruparse de forma simétrica en torno al porcentaje poblacional, siendo más difícil encontrar porcentajes alejados de este.

Veamos cuál es el efecto de tomar muestras de distinto tamaño. La distribución de porcentajes de muestras de tamaño 5 se presenta en la Figura 3.

El gráfico es parecido al de la distribución muestral de medias del módulo I, pero más discontinuo porque en una muestra de 5 individuos hay porcentajes que no se pueden dar, como por ejemplo 50%. Es asimétrico. Si en vez de muestras de 5 individuos, tomamos muestras de 20 y 50 individuos (Figura 4), observamos que a medida que incrementamos el tamaño de la muestra la distribución muestral de proporciones va pareciéndose cada vez más a una distribución normal, se estiliza y la proporción media muestral se acerca a la poblacional (en el caso de n=50 ya es de 0,55 o 55%). Nunca será una distribución normal porque la variable es dicotómica en lugar de continua, pero se aproxima mucho a ella y podemos utilizar las características de ésta como hacíamos en la estimación de una media.

Grafico barras 2 bloque 2

Figura 4. Distribución muestral de proporciones de pacientes con 200 mg/dl de colesterol o más en 100 muestras de 20 individuos (izquierda) y 50 individuos (derecha) de una población donde el 56% de los individuos tienen esos valores de colesterol.

De este modo, podremos decir que el 95% de las proporciones se encontrarán en el siguiente intervalo:

π±1,96*EEP

donde π es la proporción poblacional y EEP es el error estándar de la proporción, que tiene la siguiente fórmula:

Formula bloque 2 1

El siguiente paso es idéntico al que dábamos en la estimación de medias. Como en la vida real yo no conozco la proporción en la población (que es lo que quiero calcular) y sólo tengo una muestra, asumiré que la proporción en la muestra será muy parecida a la poblacional y obtendré el intervalo de confianza al 95% sumándole y restándole a la proporción en la muestra1,96 multiplicado por el EEP, en cuya fórmula habré sustituido π por p, la proporción muestral:

Formula bloque 2 2

 

En este caso no se modifica el coeficiente por haber usado la p en lugar de la π, se sigue usando 1,96.

Intervalo de confianza (IC) al 95% de una proporción:

Formula bloque 2 3

Nuevamente el intervalo de confianza incluirá o no el porcentaje poblacional, en función de la suerte que hayamos tenido al seleccionar la muestra, pero el procedimiento tendrá un 95% de probabilidades de acertar.

Este procedimiento sólo es correcto si π*n y (1-π)*n alcanzan unos valores mínimos. Hay que recordar que hemos asumido que la distribución muestral de porcentajes, que viene de una población que sigue una distribución binomial, se puede aproximar a una distribución normal. Esta aproximación sólo es correcta cuando tanto π*n como (1-π)*n son iguales o mayores que 5. Esto puede no suceder porque la n sea muy pequeña o porque la π o su complementario (1-π) sean muy pequeños.

Vamos a intentar explicar un poco más esto último. Si los valores de la proporción son muy próximos a 0 ó a 1, no hay suficiente “espacio”, por así decir, para aproximar una verdadera curva normal con sus dos colas, pues por uno de sus lados estaría amputada. Tan sólo se conseguiría aproximar ese tipo de curva si las muestras fueran lo suficientemente grandes para que la dispersión de las proporciones obtenidas fuera tan pequeña que una curva más o menos normal pudiera entrar en ese corto intervalo que separa nuestra proporción del valor extremo 0 ó 1.

El problema para utilizar estos criterios es que, nuevamente, no conocemos π. Lo que se hace entonces es sustituir π por el valor de la proporción que, dentro del intervalo de confianza, hace más difícil cumplir la condición, es decir:

  • Si la proporción muestral es menor de 0,5, el valor que se utiliza es el límite inferior del intervalo de confianza.

  • Si la proporción muestral es mayor de 0,5, el superior.

En este caso se procede al contrario que en la estimación de medias: primero se calcula el intervalo de confianza y, con estos datos, se comprueba que se cumplen las condiciones de aplicación. De no ser así, hay que recalcular el intervalo de confianza con fórmulas especiales. Hay que asegurarse de que la aplicación estadística que empleamos utiliza estas fórmulas en esos casos.

Por último decir que cuando la variable no es dicotómica, es decir, tiene tres o más posibles valores, lo que se hace es ir calculando los intervalos de confianza para cada categoría agrupando todas las demás en una sola. Con eso convertimos una variable con cualquier número de categorías en dicotómica.

Contraste de hipótesis para una proporción

El planteamiento es igual al del contraste de hipótesis para una media. Lo que la aplicación estadística nos ofrece como resultado es el nivel de error de que la proporción de una categoría en una población sea distinta a una proporción preestablecida. Si ese nivel de error es suficientemente bajo, menor de 0,05 por convención, podemos decir que la proporción en la población es distinta a la de referencia. Por supuesto aquí también cabe plantear contrastes uni y bilaterales.

Hasta aquí la parte de teoría estadística correspondiente al tutorial de este módulo. Pero vamos a aprovechar la brevedad de esta parte para introducir el tema de la relación y comparación de variables, que es la base para comprender el resto de módulos del curso. Así que, aunque no lleve un tutorial asociado, es recomendable comprender adecuadamente el apartado que sigue.

ESTADÍSTICA ANALÍTICA: COMPARAR DOS O MÁS POBLACIONES, ESTUDIAR LA RELACIÓN ENTRE DOS VARIABLES

Lo que hemos visto hasta ahora es la parte de la estadística analítica que se encarga de calcular los parámetros poblacionales de una sola variable en una sola población a partir del estudio de una muestra. Pero en la investigación se nos pueden plantear otros problemas:

  • Podemos estar interesados en saber si una misma variable tiene distribuciones distintas en dos poblaciones. En este caso, tendremos una variable en la que estamos interesados (los niveles de colesterol, por ejemplo) y otra, que siempre será categórica, que nos indicará a qué población pertenece cada individuo (hombres y mujeres, por ejemplo).

  • También puede ser interesante saber si dos variables están relacionadas en una misma población, como el peso y la talla o el color de ojos y de pelo.

Lo que tienen en común todos estos problemas es que ya no hay una sola variable, como en la estimación de parámetros, sino dos o más.

Aunque conceptualmente no es lo mismo estudiar las asociaciones entre dos variables de una misma población que las diferencias en una misma variable entre dos poblaciones, los procedimientos estadísticos a emplear si se pueden organizar en una misma tabla como la que se presenta más abajo. Esta tabla sirve para elegir el procedimiento estadístico a utilizar en todos los problemas bivariados.

Para emplearla, lo primero que hay que saber es si las variables del problema son continuas o categóricas:

  • Si se trata de dos variables continuas, estaremos estudiando la relación entre dos variables de una misma población, como el peso y la talla, lo que se denomina correlación.

  • Si al menos una de las dos variables es categórica, se nos pueden presentar las siguientes situaciones: .

  • En el caso general de dos variables categóricas hablaremos de asociación de variables categóricas, como el color de pelo y ojos.

  • Si las dos variables son categóricas dicotómicas (es decir, tienen dos categorías), podríamos decir también que estamos estudiando su asociación como en el punto anterior, pero otra manera de verlo es que estamos comparando las proporciones de un atributo de interés (una de las dos categorías de una de las variables) entre dos poblaciones (las categorías de la otra variable), como cuando comparamos la proporción de hipercolesterolémicos entre hombres y mujeres.

  • Como una variante de esta última situación, la variable de interés puede ser continua. Tendremos entonces una variable continua y otra categórica, la que indica la población de pertenencia. Si sólo hay dos poblaciones, un tipo de análisis de este tipo es la comparación de medias, como la de altura entre hombres y mujeres. Si hay tres o más un tipo de análisis es el ANOVA, como cuando se compara la altura entre las razas blanca, negra y amarilla.

Una vez que se ha esclarecido el tipo de variables con las que se trabaja, para elegir la prueba estadística de análisis se tiene que tener en cuenta además:

  1. Si se cumplen los criterios de aplicación de las pruebas paramétricas, es decir, de las pruebas que se basan en la distribución normal;ya hemos visto un ejemplo de procedimiento paramétrico, que es la construcción de un intervalo de confianza para la estimación de una media. Los criterios los iremos explicando en cada uno de los tests estadísticos. Si no se cumplen es necesario o transformar la variable (como en la transformación logarítmica) o recurrir a una prueba no paramétrica. Las pruebas no paramétricas tienen la desventaja de que son menos capaces de detectar diferencias o asociaciones entre variables.

  2. Si las variables son dependientes (también llamadas pareadas) o independientes. Dependientes en este contexto significa que las variables han sido obtenidas de los mismos individuos, como por ejemplo cuando medimos su frecuencia cardiaca al realizar un esfuerzo y unos minutos después. Por el contrario, si se quisiera comparar la frecuencia cardiaca entre hombres y mujeres estaríamos hablando de variables independientes.

Tabla asociaciones

 

Ángel Rodríguez Laso es especialista en Medicina de Familia y Comunitaria, Doctor en Medicina, Máster en Salud Pública e investigador en el Matía Instituto Gerontológico

 

 Anterior (Introducción. Estimación de una media)     Siguiente (Comparación de dos medias)

 

Compartir:

Deja una respuesta

¡Usamos cookies propias y de terceros para mejorar tu experiencia en esta web! Si sigues navegando, consientes y aceptas estas cookies en tu ordenador, móvil o tablet. Más información sobre las cookies y cómo cambiar su configuración en tu navegador aquí.

x