Introducción a la estadística 3

0

Logo revista

Nº 3. Junio 2013.

Formación Médica Acreditada

INTRODUCCIÓN A LA ESTADÍSTICA: ESTADÍSTICA DESCRIPTIVA Y DISTRIBUCIONES DE PROBABILIDAD

Información para realizar el curso y obtener la acreditación

Llega la tercera entrega del curso “Introducción a la Estadística: Estadística descriptiva y distribuciones de probabilidad”. Para la realización de dicho curso y su consiguiente acreditación, será necesario completar los módulos prácticos y el cuestionario final, accesibles en la plataforma de formación de AMYTS para todos los alumnos inscritos en el curso. El período de inscripción ya se ha cerrado.

Módulo 3: Distribuciones de probabilidad. La distribución normal.

Hasta aquí hemos estado trabajando en el ámbito de la estadística descriptiva, del análisis de los datos que obtenemos a partir de una observación dada. Sin embargo, lo que nos interesa normalmente no es tan sólo describir unos hallazgos, sino sobre todo valorar si esos datos tienen un significado concreto que nos brinde un conocimiento determinado de la realidad, y que, en nuestro caso, como profesionales de la Medicina, podamos aplicar a la mejora del nivel de salud de individuos o poblaciones. Para ello, necesitaríamos conocer hasta qué punto nuestros datos son representativos de la realidad de la población que nos interese, o si muestran una relación de los valores de una variable con los de otra, de forma que podamos tratar de incidir sobre una de ellas para obtener resultados favorables en la otra. Necesitamos entrar en el ámbito de la estimación poblacional y de la relación entre variables, que es el contenido de la Estadística Inferencial, y que analizaremos en otro curso. Pero para ello hace falta primero adquirir algunos conocimientos básicos sobre Probabilidad, que son la base sobre la que se desarrolla la Estadística Inferencial, y que vamos a desarrollar en lo que queda de curso.

Variables aleatorias y probabilidad

Todos recordamos la formulación clásica del concepto de probabilidad. La probabilidad de que, al realizar un experimento, ocurra un resultado dado depende del número de alternativas posibles. Si el fenómeno que queremos observar se comporta de forma aleatoria, es decir, por puro azar, sabemos que esa probabilidad es igual a la relación entre el número de casos favorables y el total de casos posibles (regla de Laplace). En el caso de un dado, por ejemplo, la posibilidad de que, al lanzarlo, obtengamos un 6 será 1/6: sólo un caso de los seis posibles nos serían favorables. Aunque lo cierto es  que no tenemos la certeza de que, al hacer un experimento con 6 tiradas, en una de ellas obtengamos necesariamente un 6; lo que sí parece lógico pensar es que realizamos un número elevado de tiradas, la frecuencia relativa de obtener 6 como resultado sí tienda a ser muy próxima a 1/6. Continuando con la regla de Laplace, la posibilidad de que el resultado sea par sería de 3/6 (tres casos favorables de los 6 posibles), o sea, 0,5.

Ya hemos manejado diferentes conceptos propios de los fenómenos aleatorios, que son aquellos fenómenos en los que se cumplen las siguientes reglas:

  1. podemos realizar infinitos experimentos del mismo, siempre en las mismas condiciones (experimentos aleatorios)
  2. el resultado de cada uno de ellos pertenece a un conjunto definido de resultados posibles, pero es impredecible antes de realizarlo. Conocemos la probabilidad teórica de que ocurra un fenómeno, según la regla de Laplace, pero no podemos anticipar que, en un experimento dado, se cumpla exactamente la distribución teórica que parece desprenderse de dicha regla. Es decir, no tenemos seguro, en absoluto, que tras tirar seis veces un dado sólo obtengamos un 1, o un 2, o un 3…

Los resultados de un experimento de este tipo aparecerían recogidos en una variable aleatoria. A cada uno de los resultados obtenidos en cada experimento se le denomina suceso aleatorio. La probabilidad de que ocurra cualquier resultado de entre los posibles es 1 (en el caso de nuestro dado, 6/6), y, para cada suceso, su probabilidad estará entre 0 y 1 (en nuestro caso, la probabilidad de obtener un 6 será 1/6=0,16667).

Probabilidad de dos sucesos

Si dos sucesos son excluyentes, la probabilidad de que ocurra uno de los dos es la suma de sus probabilidades; si no son excluyentes, a esa suma habrá que restar una vez la parte común, la probabilidad de su intersección (∩):

[P(A+B) = P(A) + P(B) – P(A∩B)]

También existe el producto de probabilidades, entendido como la probabilidad de que ocurran, de forma conjunta, dos sucesos. Si ambos sucesos son independientes, es decir, que la probabilidad de que ocurra uno no condiciona la probabilidad de que ocurra el otro, el producto de probabilidades es el siguiente:

P(A ∩ B) = P(A) x P (B)

Pero también existen situaciones en que esa probabilidad viene condicionada por la aparición de un suceso previo; dicho de otra forma, que su probabilidad va a variar en función de lo que haya ocurrido previamente. En estos casos hablamos de probabilidad condicionada, que representamos de la siguiente manera: P(A|B). Se cumple lo siguiente:

P(B) x P(A|B) = P(A) x P(B|A)

Es decir, que en la multiplicación de probabilidad de dos sucesos que no son independientes existiría una especie de propiedad conmutativa. Se trata de una de las formulaciones del teorema de Bayes que desemboca en la siguiente fórmula:

P(A|B) = P(A) x P(B|A) / P(B)

Esta fórmula tiene importantes implicaciones clínicas. Si conocemos la probabilidad de una enfermedad en la población [P(A)] y la frecuencia (concepto ligado a la probabilidad, como sabemos) de un determinado marcador clínico en esa enfermedad [P(B|A)], así como la presencia de ese mismo marcador clínico en la población (enfermos y no enfermos, o sea, la probabilidad total de ese marcador [P(B)] en todas las posibles situaciones de un individuo), podremos  estimar la probabilidad de un determinado individuo de padecer la enfermedad si presenta ese marcador clínico [PA|B)]. Eso es importante a la hora de valorar la presencia de determinados síntomas en un paciente, pero también en la valoración de una prueba diagnóstica

Distribuciones de probabilidad

Ni siquiera teniendo modelos teóricos de probabilidad, como es el caso de la fórmula de Laplace, podemos anticipar la realidad de un determinado fenómeno. Podemos tirar 120 veces los dados, que sabemos de entrada que es bastante improbable que, al finalizar la última tirada, hayamos obtenido 20 casos de cada uno de los posibles resultados.

De ahí que, en la estadística moderna, se haya cambiado el concepto de probabilidad, y se le haya dado una definición más “realista”, utilizando el concepto matemático de límite: la probabilidad de un determinado fenómeno sería el límite hacia el que tiende la frecuencia relativa de ese fenómeno cuando el experimento se realiza un número infinito de veces. El realismo que introduce este nuevo concepto nos aporta, además, una valiosa herramienta: si al realizar un experimento en un grupo de la población, su distribución de frecuencias no tiende a asimilarse a la esperada, es posible que se nos escape un fenómeno oculto que pueda explicar esa discrepancia. En el ejemplo del dado, tendríamos muchas reservas a seguir utilizando un dado que, en esos 120 ensayos, hubiera ofrecido como resultado en 50 ocasiones uno de sus valores. Un buen observador verá en esa discrepancia la necesidad de iniciar una investigación para completar el conocimiento de ese fenómeno.

Por otro lado, que determinado resultado de una prueba biológica, por ejemplo, sea el más frecuente en una población no significa que dicho resultado podamos aplicárselo automáticamente a cada sujeto de esa población. Más bien tendremos que considerar la frecuencia relativa de cada resultado (o intervalo de resultados) como la posibilidad de obtener el mismo cada vez que realicemos esa prueba. Esto nos ofrece una función de probabilidad a lo largo de todo el rango de posibles resultados, que la teoría de probabilidades ha modelado mediante lo que se conoce como distribuciones de probabilidad.

Si tras un detallado estudio, por ejemplo, hemos concluido que el 45% de una población tiene  una frecuencia cardíaca de entre 75 y 85 latidos por minuto, que un 30% la tiene mayor de 85, y que el restante 25% la tiene por debajo de 75, podemos concluir que un individuo característico de esa población va a tener ese mismo porcentaje de posibilidades de encontrarse en un rango u otro de frecuencia. Matemáticamente, esto tiene un desarrollo que generaría una fórmula concreta que aplicaría a cada valor de frecuencia una probabilidad concreta y perfectamente determinada; precisamente esa fórmula sería la que definiría la función de probabilidad de esa variable.

Esto es muy útil, ya que el aparato matemático desarrollado para cada una de esas posibilidades nos sirve para conocer mejor el fenómeno que podamos estar estudiando; ese aparato matemático es muy complejo y no vamos a entrar en él aquí, pero baste saber que muchas de ellas siguen determinados patrones (o distribuciones de probabilidad) que se encuentran tabulados, y podemos obtener la información necesaria acudiendo a la tabla correspondiente. Para ello, precisaremos un mínimo de información, que suele reducirse a uno o dos estadísticos de la muestra (de entre n, x y σ). Eso sí, habrá que tener claro qué distribución de probabilidad es la aplicable al fenómeno concreto que estemos estudiando. Existen diferentes modelos de distribución de probabilidad, que variarán según el tipo de variable con que nos estemos enfrentando.

En el caso de las variables aleatorias, es decir, aquéllas que podemos realizar de forma repetida, y cuyo resultado es imprevisible a priori, nos basta con agruparlas en dos grupos: variables aleatorias discretas, que sólo pueden tener un número limitado de posibles resultados (lanzar dados o monedas), y variables aleatorias continuas (que pueden tener resultados ilimitados, típico en general de las variables biológicas). Para cada variable aleatoria podemos definir dos conceptos fundamentales:

  • su esperanza o valor esperado es el valor en torno al que se acumulan los resultados obtenidos, y tendría una función similar a la de la media en la estadística descriptiva. Se calcula mediante la suma (∑)de los productos de todos los valores (xi) que puede tomar la variable por su probabilidad correspondiente (pi):

∑xipi

  • su varianza, con función similar a la que tiene para medir la dispersión de muestras estadísticas.

Los diferentes valores de una variable, bien sea aleatoria, bien representativa de un hecho biológico, tienen cada uno una probabilidad determinada, relacionada con la frecuencia en que dicho valor aparece en una población / muestra. Su distribución de frecuencias se convierte, así, en una distribución de probabilidades, definida por una determinada función de probabilidad en el caso de las variables discretas, o por una función de densidad de probabilidad en el caso de variables continuas, que puede seguir alguno de los diferentes modelos teóricos que conocemos, diferentes según el tipo de variable.

Los resultados de la correspondiente función de probabilidad, que se pueden obtener mediante complejos cálculos matemáticos, pueden accederse también en diferentes tablas, muchas de ellas disponibles en internet, a través de los parámetros propios de cada función. Sin embargo, los programas estadísticos, e incluso las hojas de cálculo, nos facilitan esa tarea, como veremos en los dos siguientes tutoriales.

Vamos a analizar, a continuación, las distribuciones de probabilidad en el caso de variables continuas, entre ella la más famosa de las distribuciones de probabilidad, la distribución normal,  y dejaremos para el bloque siguiente del curso el análisis de otras distribuciones de interés para el caso de variables discretas. Antes de nada, conviene especificar que en el caso de las variables continuas habría que hablar más bien de funciones de densidad de probabilidad, ya que sólo se puede determinar la probabilidad para intervalos, no para valores concretos (al tratarse de variables continuas).

La distribución normal o de Gauss

Es la distribución de mayor interés en el caso de la mayoría de muestras biológicas, que se comportan como una variable continua en la que los valores de probabilidad de los distintos sucesos conforman una curva campaniforme simétrica y centrada en la media (por lo que coinciden media, mediana y moda). Otra propiedad de esta distribución es que, si para un determinado fenómeno que no sigue una distribución gaussiana se repite un experimento un número suficiente de veces, siempre que el número de casos de cada experimento sea elevado (>30), las medias obtenidas en los experimentos tenderán a distribuirse de forma gaussiana (teorema central del límite), con lo que también podremos aplicar a la distribución de medias el aparato matemático de la distribución normal. Incluso las distribuciones binomiales (de las que hablaremos más adelante) se aproximan bien con la distribución normal cuando n es suficientemente grande y la probabilidad de cada uno de los sucesos complementarios no está próxima a 0 ó 1.

La distribución se extiende a lo largo de todo el espacio de los números reales positivos, sin que a ningún valor se le pueda otorgar matemáticamente la probabilidad 0, aunque fuera de un determinado intervalo, centrado en la media y de mayor tamaño cuando mayor sea el valor de la varianza (y, por tanto, más ancha y achatada será la curva), el modelo teórico otorga una probabilidad despreciable. La distribución de probabilidades viene dada por una función del tipo:Est1 grafico normal

f(x) = ae-bx

Está perfectamente definido el porcentaje de probabilidad total que se encuentra dentro de algunas áreas de la curva. La desviación estándar (σ) coincide con el punto de inflexión de la curva, y el área comprendida a ambos lados de la media (x si es la media de una muestra, μ si se trata de la media poblacional) hasta dicho punto (μ±σ) incluye al 68% de los casos posibles; si consideramos el área comprendida entre los puntos μ±2σ, se incluye aquí el 95,4% de la probabilidad; y entre los puntos μ±2,6σ, el 99%. De aquí los famosos valores que se toman para los cálculos de los intervalos de confianza en la estadística inferencial. El área total bajo la curva, es decir, la probabilidad total, es 1.

Si se tipifica la variable mediante la llamada relación crítica (el procedimiento del que ya hemos hablado, en el que cada valor se sustituye por su diferencia con la media, dividida entre la desviación estándar), se obtiene una curva normal tipificada, con media 0 y desviación típica 1, cuyos parámetros fundamentales se pueden encontrar tabulados, evitando engorrosos cálculos matemáticos.
Diversas pruebas de complicado cálculo, como la de Kolmogoroff-Smirnov, Shapiro-Walk, etc, nos permiten comprobar si la distribución de un determinado fenómeno coincide con la distribución de Gauss, para así poder utilizar con ella el aparato matemático asociado a la misma. Exceden del alcance de este curso, pero se pueden encontrar en los programas informáticos específicamente diseñados para el ámbito de la estadística, como el SPSS.

   Anterior (Variables cuantitativas)   Siguiente (Otras distribuciones de probabilidad)
Compartir:

Deja una respuesta

¡Usamos cookies propias y de terceros para mejorar tu experiencia en esta web! Si sigues navegando, consientes y aceptas estas cookies en tu ordenador, móvil o tablet. Más información sobre las cookies y cómo cambiar su configuración en tu navegador aquí.

x