Introducción a la estadística 2

0

Logo revista

Nº 3. Junio 2013.

Formación Médica Acreditada

INTRODUCCIÓN A LA ESTADÍSTICA: ESTADÍSTICA DESCRIPTIVA Y DISTRIBUCIONES DE PROBABILIDAD

Información para realizar el curso y obtener la acreditación

Presentamos a continuación la segunda entrega del curso “Introducción a la Estadística: Estadística descriptiva y distribuciones de probabilidad”. Para la realización de dicho curso y su consiguiente acreditación, será necesario inscribirse (mediante el documento adjunto) antes del próximo día 18, y realizar, además, los módulos prácticos y el cuestionario final, accesibles en la plataforma de formación de AMYTS para todos los alumnos inscritos en el curso. Cada módulo teórico, que irá apareciendo en las sucesivas entregas semanales de la e-revista del mes de junio, lleva su correspondiente ejercicio práctico.

Módulo 2: Variables cuantitativas.

Son variables cuyo valor es numérico, ordenado y proporcional (es decir, se pueden establecer relaciones de proporcionalidad entre los valores, como que un valor es doble que otro, o que la distancia entre 1 y 3 es doble que la distancia entre 3 y 4). Pueden ser de dos tipos:

  • discretas si sólo pueden adoptar valores concretos y separados, como por ejemplo el número de hijos (0,1,2,3,4…), en cuyo caso no son posibles los decimales. Al igual que las cualitativas, pueden agruparse en clases.

  • continuas si sus valores no están restringidos, y se reparten a lo largo del continuum de los números reales (es decir, incluyen infinitos decimales). Como ejemplos, tenemos el peso, la altura, los niveles de colesterol… Hay que tener en cuenta que las limitaciones de los instrumentos de medida hacen que, en realidad, parezcan variables discretas (ya que si el instrumento no detecta más que centésimas, lo que habrá será valores “salteados” de centésima en centésima, pero sabemos que si pudiéramos realizar la determinación con instrumentos más exactos, aún aparecerían más valores intermedios). Para facilitar el tratamiento de estos datos, podemos agruparlos en intervalos de clase, que vendrán identificados por su valor medio, la llamada marca de clase.

Las variables cuantitativas, en general, se suelen presentar mediante estadísticos matemáticos, que tienen la ventaja de acumular gran información en un sólo valor o en un grupo de valores. Sin embargo, en el caso específico de las variables discretas, los datos pueden presentarse también mediante frecuencias, absolutas o relativas, o mediante frecuencias acumuladas (también las cualitativas ordinales pueden presentarse así), en las que cada categoría o clase se representa mediante la suma de su frecuencia y la de las categorías anteriores. También las variables continuas pueden presentarse mediante una tabla de frecuencias, lo que sería muy engorroso salvo que utilicemos los diferentes intervalos de clase como categorías, al modo de una variable cualitativa (categorización de la variable cuantitativa); pero, al sustituir cada valor por la marca de clase (el valor medio del intervalo), se perdería una buena parte de la información contenida en la distribución de la variable.

Entre los estadísticos matemáticos para mostrar la información de una variable cuantitativa, los hay de dos tipos: de posición y de dispersión.

Estadísticos de posición

Se trata de valores que describen cómo se encuentran los datos de la muestra en relación a ellos. Destacan las llamadas medidas de centralización o de tendencia central, que son valores promedio que intentan representar a toda la muestra, siendo las más utilizadas la media aritmética, la mediana y la moda. También existen medidas de posición no central, como los percentiles, que definen el lugar que un determinado dato presenta en el conjunto de la muestra.

Media aritmética

Se obtiene mediante la suma de todos los valores observados, dividida entre el número de observaciones. Se denomina mediante la letra µ cuando se refiere a poblaciones, y mediante el símbolo x en el caso de muestras. Es la medida más conveniente cuando los valores se acumulan en el centro de la distribución. Su manejo es muy fácil, pero es muy sensible a los valores extremos. No tiene por qué coincidir con uno de los valores obtenidos en la muestra.

Mediana

Es el valor que ocupa la posición media de la distribución de valores, dejando a la mitad de ellos a cada lado. Puede coincidir con uno de los valores de la muestra si en la mitad sólo se sitúa uno, y puede que no, si en la posiciónn media quedan dos valores distintos, en cuyo caso habría que calcular la media entre ellos. No es tan sensible a los valores extremos, pero su manejo es un poco más complejo. Es la medida más conveniente en el caso de distribuciones asimétricas (ver más abajo).

Moda

Es el valor más frecuentemente obtenido en la muestra, aunque, en caso de empate, habrá más de una moda. Podría no haber ninguna si todos los valores tienen la misma frecuencia. Su manejo matemático es más complejo, aunque su detección es muy sencilla con una tabla de frecuencias o incluso con la representación gráfica. Puede hablarse de moda también en el caso de variables cualitativas, para referirse a la categoría más frecuente.

Percentil

Estadístico que indica el porcentaje de observaciones que quedan por debajo de una dada; el percentil 10 sería, por tanto, el valor que deja por debajo el 10% de los casos. Es muy típico su uso en las curvas de crecimiento de los niños, de las que hablamos al inicio del tema. Los valores que dividen a la muestra en cuatro partes iguales se denominan cuartiles, y se corresponden con los percentiles 25, 50 y 75; la mediana coincide con el percentil 50. Se pueden localizar fácilmente en tablas de frecuencias acumuladas, aunque son muy engorrosas en el caso de las variables cuantitativas. Los deciles (1-9) dividen la muestra en diez partes, coindiciendo con los percentiles “de decena” exacta (10, 20…). En conjunto, a todos ellos se les considera cuantiles, que, según el orden de que se trate, dejan por debajo de ellos una proporción determinada de casos.

Estadísticos de dispersión

Son estadísticos que describen el “ancho” de distribución de la variable, su dispersión en torno al valor central.

Recorrido, rango o amplitud

Diferencia entre los valores extremos (máximo y mínimo) obtenidos en la muestra. Es muy sensible a los valores extremos.

Varianza

Se obtiene a partir del cuadrado de la diferencia de cada valor con respecto a la media; se suman todos esos valores, y se halla la media de los mismos. La razón de obtener primero el cuadrado de las diferencias es conseguir que todos los resultados sean del mismo signo, ya que, de lo contrario, las diferencias serían unas positivas y otras negativas, al estar unos valores por encima de la media y otros por debajo, y su suma total tendría siempre resultado 0.

Se representa mediante el símbolo σ2 si es en relación al conjunto de la población (como parámetro, por tanto), y s2 si es como estadístico en una muestra, y también es muy sensible a los valores extremos. En formulación matemática:

s2 = Σ (xi – x)2 / n

Desviación estándar o típica

Es la raíz cuadrada de la varianza. Su utilidad es que se expresa en las mismas unidades que la variable original, al eliminar los cuadrados.

Recorrido o rango intercuartílico

Es la diferencia entre los valores que se encuentran en los percentiles 25 y 75 (que definen al primer y al tercer cuartil), por lo que elimina la influencia de los valores extremos. Si la muestra tiene valores extremos, estamos ante una variable discreta y se utiliza la mediana como medida de centralización, ésta es la medida de dispersión más adecuada.

Coeficiente de variación

Facilita la comparación de la dispersión de muestras de diferente magnitud, al proporcionarnos el cociente, en forma de porcentaje, entre la desviación estándar y la media. Es adimensional, porque elimina las unidades, y, además, homogeneiza las diferentes muestras independientemente del valor en que se mueva la distribución de sus datos; por ejemplo, sería útil para comparar la desigualdad económica en dos países con diferente nivel adquisitivo medio, o la dispersión de los niveles de colesterol (con valores del orden de las centenas en mg) con la dispersión de la edad (que tiene valores del orden de las decenas) en una determinada población.

Existe otra forma de conseguir esto mismo, poder comparar distribuciones de variables de diferente rango y/o medida, mediante el procedimiento demoninado de tipificación de una variable, en el que cada valor de la misma es sustituido por su diferencia con la media, dividida entre la desviación típica. Se consigue así una nueva distribución representativa de la misma variable, con media 0 y desviación típica 1, comparable con otras variables a las que se haya sometido al mismo proceso.

Medidas de forma

  • Asimetría: calculada a través de complicados índices, describe la forma de distribuirse la muestra a los lados de la media. Si su signo es positivo (asimetría positiva), la curva de frecuencias está desplazada a la izquierda, porque la mayoría de casos se concentra a la derecha de la media, y la cola queda a la derecha; ocurre lo contrario en caso de asimetría negativa.

  • Curtosis (o apuntamiento): indica el grado de concentración de los datos en el entorno próximo de la media. Si la concentración es elevada, la curva será muy apuntada (leptocúrtica), y si es muy baja, será aplanada (platicúrtica), siendo mesocúrtica la curva con una concentración intermedia.

Para que una curva tenga distribución normal, de la que hablaremos más adelante, se considera que ambos índices deben encontrarse en el intervalo entre -0,5 y +0,5.

Representación gráfica

La representación gráfica de las variables cuantitativas puede adoptar diferentes modalidades:Graficobarrascuant

Diagrama de barras 

Forma válida de representar una variable cuantitativa discreta, aunque debería tratarse de barras muy finas para representar que no hay valores intermedios, como es el caso del gráfico adjunto, que recoge la distribución, por número de hijos, de las familias de un colegio.

Diagrama integral

Para representar la frecuencia acumulada (en la que cada valor “acumula” la frecuencia de los valores previos a la suya); adquiere forma de escalera, en la que cada intervalo asciende sobre el anterior al acumular las frecuencias de los intervalos previos.Histogramacuant

Histograma 

Cada intervalo de la variable se representa mediante un rectángulo, cuya área ha de ser proporcional a la frecuencia observada. El gráfico adjunto representa, por ejemplo, la distribución de las familias de una ciudad imaginaria por nivel de ingresos anuales.

Polígono de frecuencias

Construido sobre el histograma, uniendo los puntos medios (correspondientes a la llamada “marca de clase”) del borde superior de cada intervalo, y pudiendo terminar, tanto a la derecha como a la izquierda, en el valor 0, para dejar cerrada y perfectamente definida su superficie, que coincidirá con la suma de las áreas de los rectángulos del histograma. Puede construirse un polígono de frecuencias acumuladas sobre un histograma del mismo tipo, que, por tanto, tendrá pendiente positiva a lo largo de todo su trazado (es decir, creciente o en ascenso).

Diagrama de cajas y bigotes

Los diferentes grupos de datos se representan mediante un rectángulo, cuyos límites son el primer y el tercer cuartil, señalando la mediana en su interior, y con unas líneas sobresaliendo de los límites de la caja (whiskers) que alcanzan los dos extremos de la distribución (valores máximo y mínimo). Es el caso del ejemplo que adjuntamos, que compara los ingresos familiares brutos mensuales de una ciudad y un pueblo, mostrando en este último unos valores inferiores en general a los de la ciudad.

Barrasbigotes

 

   Anterior (Introducción. Variables cualitativas)   Siguiente (Probabilidad y estadística. La distribución normal)
Compartir:

Deja una respuesta

¡Usamos cookies propias y de terceros para mejorar tu experiencia en esta web! Si sigues navegando, consientes y aceptas estas cookies en tu ordenador, móvil o tablet. Más información sobre las cookies y cómo cambiar su configuración en tu navegador aquí.

x