Antes de empezar el tema de hoy, os incluyo las soluciones de los ejercicios propuestos de la página 114, para que los corrijáis en vuestro cuaderno. También os pongo las soluciones de los ejercicios propuestos en la entrada anterior, de la página 139. Si encontráis alguna errata, que puede suceder, hacédmelo saber por correo electrónico, como siempre. Muchas gracias.
Empezamos ya con la Estadística. Es un tema sencillo, con muchos conceptos y lenguaje nuevo.
En vuestro libro de texto está bien explicado.
Esquema muy básico del tema 12 |
Se pretende estudiar una variable estadística, organizar los resultados de una encuesta y describirlos mediante una tabla de frecuencias, gráficos estadísticos y parámetros descriptivos.
En todo estudio estadístico se analiza una variable estadística. Ésta puede ser cualitativa (estado civil, grupo sanguíneo, partido político,...) o cuantitativa, que es cuando los valores son numéricos.
Una variable cuantitativa puede ser a su vez discreta: sólo se dan valores aislados, contables (número de hermanos, número de personas que juegan al fútbol,... o continua: se dan valores medibles (peso de jóvenes varones de 14 años, estatura de mujeres de 18 años, ...)
Los datos se obtienen realizando encuestas (u otros modos de recolección de datos) a la población.
Normalmente aquéllas no se realizan a toda la población sino a una muestra de la misma. Lo único que se pide a una muestra es que sea aleatoria (al azar) y representativa (esto no es una cosa fácil, hay toda una teoría sobre cómo escoger correctamente una muestra y precisa del cálculo de Probabilidades).
Una vez que los datos están recogidos hay que organizarlos en una tabla de frecuencias. Ésta es la clave para realizar una descripción precisa del conjunto. De ahí se obtienen los gráficos estadísticos y los parámetros estadísticos.
Los parámetros estadísticos son unos números especiales que nos describen globalmente el conjunto de datos.
Hay dos clases de parámetros, los centrales: que pretenden describir lo "típico" o el "promedio" del conjunto de datos (Moda, Mediana, y Media, entre otros); y luego están los de dispersión: que pretenden medir cómo se distribuyen o se dispersan los datos respecto a los parámetros centrales (Rango o Recorrido, Varianza, Desviación típica o estándar, ...).
En este curso vamos a trabajar con
- variables cualitativas y con variables cuantitativas discretas.
- gráficos estadísticos.
- parámetros centrales: Media, Moda y Mediana.
- parámetros de dispersión: Rango o Recorrido, Varianza, Desviación típica o estándar y coeficiente de variación.
Lo primero siempre es construir una tabla de frecuencias. Es muy importante. Mirad el siguiente vídeo, para que veáis cómo se hace. Es un ejemplo que tenía previsto contaros en clase, en su momento.
PARÁMETROS CENTRALES
PARÁMETROS CENTRALES
Los parámetros centrales son unos números que pretenden describir el valor "típico" o el valor "promedio" de la variable estadística $x$ en todo el conjunto de datos. Los más usados son la Moda, la Mediana y la Media.
Recordad que, en una tabla o distribución de frecuencias, los $N$ datos que se han recogido en una encuesta se organizan en $n$ resultados distintos. Los datos, que pueden estar repetidos, los organizamos en una tabla contando cuántas veces aparece cada resultado $x_1, x_2,...,x_n$. Obviamente los resultados son necesariamente distintos, y el número de veces que aparece un resultado se llama "frecuencia absoluta" de dicho resultado.
Es muy habitual en Estadística etiquetar los resultados con sub-índices, así el primer resultado de la variable estadística $x$ se denota $x_1$ y su frecuencia absoluta $f_1$.
El segundo resultado de la variable estadística $x$ se denota $x_2$ y su frecuencia absoluta $f_2$.
El tercer resultado de la variable estadística $x$ se denota $x_3$ y su frecuencia absoluta $f_3$.
El cuarto resultado de la variable estadística $x$ se denota $x_4$ y su frecuencia absoluta $f_4$.
Y así sucesivamente...
Aviso: El libro usa la letra $n_i$ en vez de $f_i$ para la frecuencia absoluta del resultado nº $i$. La notación mayoritaria es $f_i.$
Está claro que $n$ es menor, o como mucho igual a $N$.
El resultado más frecuente, se llama Moda de la distribución de frecuencias, ya sea la variable estadística cuantitativa o no.
Cuando la variable aleatoria es cuantitativa discreta, además de la Moda también está la Media:
La Media $\overline{x}$ de $x$ es
$$\overline{x}=\frac{x_1 \cdot f_1+x_2 \cdot f_2+...+x_n \cdot f_n}{N}=\frac{\sum_{i=1}^{n}x_i \cdot f_i}{N}.$$
El símbolo "$\sum$" se llama "sumatorio" (es una letra griega, la sigma mayúscula, equivalente a nuestra "S" latina) y sirve para abreviar sumas largas: $$\sum_{i=1}^{n} f_i \equiv f_1+f_2+f_3+...+f_n.$$
Obviamente, se cumple que el número total de datos es la suma de todas las frecuencias absolutas de los $n$ resultados: $N=\sum_{i=1}^{n} f_i$
La media viene a ser un reparto a partes iguales: $\overline{x}$ es el valor que le correspondería a cada individuo de la muestra si se repartiesen los valores acumulados de la variable a partes iguales.
(La media aritmética ordinaria de dos números $a$ y $b$ es $\frac{a+b}{2}.$)
La Mediana es el dato central si $N$ es impar. Y es la media aritmética ordinaria de los dos centrales si $N$ es par .Y para calcularla siempre se ordenan de menor a mayor los DATOS, incluyendo las repeticiones. Para averiguar la mediana es conveniente acumular las frecuencias absolutas.
PARÁMETROS DE DISPERSIÓN
Los parámetros de dispersión son unos números que pretenden describir cómo se distribuyen globalmente los datos, en promedio, alrededor de la media de la variable estadística $x$ . Los más usados son el Rango o recorido $rg(x)$, la Varianza $Var(x)$, la Desviación típica o estándar $s(x)$ y coeficiente de variación (en %) $CV(x).$
Recordad que, en una tabla o distribución de frecuencias, los $N$ datos que se han recogido en una encuesta se organizan en $n$ resultados distintos. Los datos, que pueden estar repetidos, los organizamos en una tabla contando cuántas veces aparece cada resultado $x_1, x_2,...,x_n$. Obviamente los resultados son necesariamente distintos, y el número de veces que aparece un resultado se llama "frecuencia absoluta" de dicho resultado.
Es muy habitual en Estadística etiquetar los resultados con sub-índices, así el primer resultado de la variable estadística $x$ se denota $x_1$ y su frecuencia absoluta $f_1$.
El segundo resultado de la variable estadística $x$ se denota $x_2$ y su frecuencia absoluta $f_2$.
El tercer resultado de la variable estadística $x$ se denota $x_3$ y su frecuencia absoluta $f_3$.
El cuarto resultado de la variable estadística $x$ se denota $x_4$ y su frecuencia absoluta $f_4$.
Y así sucesivamente...
Aviso: El libro usa la letra $n_i$ en vez de $f_i$ para la frecuencia absoluta del resultado nº $i$. La notación mayoritaria es $f_i.$
Está claro que $n$ es menor, o como mucho igual a $N$.
El resultado más frecuente, se llama Moda de la distribución de frecuencias, ya sea la variable estadística cuantitativa o no.
Cuando la variable aleatoria es cuantitativa discreta, además de la Moda también está la Media:
La Media $\overline{x}$ de $x$ es
$$\overline{x}=\frac{x_1 \cdot f_1+x_2 \cdot f_2+...+x_n \cdot f_n}{N}=\frac{\sum_{i=1}^{n}x_i \cdot f_i}{N}.$$
El símbolo "$\sum$" se llama "sumatorio" (es una letra griega, la sigma mayúscula, equivalente a nuestra "S" latina) y sirve para abreviar sumas largas: $$\sum_{i=1}^{n} f_i \equiv f_1+f_2+f_3+...+f_n.$$
Obviamente, se cumple que el número total de datos es la suma de todas las frecuencias absolutas de los $n$ resultados: $N=\sum_{i=1}^{n} f_i$
La media viene a ser un reparto a partes iguales: $\overline{x}$ es el valor que le correspondería a cada individuo de la muestra si se repartiesen los valores acumulados de la variable a partes iguales.
(La media aritmética ordinaria de dos números $a$ y $b$ es $\frac{a+b}{2}.$)
La Mediana es el dato central si $N$ es impar. Y es la media aritmética ordinaria de los dos centrales si $N$ es par .Y para calcularla siempre se ordenan de menor a mayor los DATOS, incluyendo las repeticiones. Para averiguar la mediana es conveniente acumular las frecuencias absolutas.
PARÁMETROS DE DISPERSIÓN
- Rango (o recorrido) $rg(x)$: Es la diferencia entre el máximo resultado y el mínimo. es decir:
$$rg(x)=\max\{ x \}-\min\{ x \}$$
No es muy efectivo como parámetro pues ignora las frecuencias absolutas de los resultados.
$$Var(x)=\overline{(x-\overline{x})^2}$$
Lo sé, parece una definición algo artificial, pero su extrema utilidad en estadística y probabilidad justifica su uso. Se puede calcular, mediante la definición de media, con la siguiente fórmula:
$$Var(x)=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^{2} \cdot f_i}{N}.$$
o también se puede calcular con la definición equivalente: $$Var(x)=\overline{x^2}-(\overline{x})^2.$$ (Que se usa en cursos superiores)
Este parámetro es preciso para hallar el siguiente parámetro de dispersión, más importante:
De manera algo imprecisa, podemos decir que el conjunto de los datos se distribuye en "promedio" a lo largo del intervalo comprendido entre $\overline{x}-s(x)$ y $\overline{x}+s(x)$.
PLAN DE TRABAJO para este tema.
No es muy efectivo como parámetro pues ignora las frecuencias absolutas de los resultados.
- Varianza $Var(x)$: Es, por definición, la media de los cuadrados de las separaciones respecto a la media de $x$, es decir:
$$Var(x)=\overline{(x-\overline{x})^2}$$
Lo sé, parece una definición algo artificial, pero su extrema utilidad en estadística y probabilidad justifica su uso. Se puede calcular, mediante la definición de media, con la siguiente fórmula:
$$Var(x)=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^{2} \cdot f_i}{N}.$$
o también se puede calcular con la definición equivalente: $$Var(x)=\overline{x^2}-(\overline{x})^2.$$ (Que se usa en cursos superiores)
Este parámetro es preciso para hallar el siguiente parámetro de dispersión, más importante:
- Desviación típica (o estándar) $s(x)$: Es, por definición, la raíz cuadrada positiva de la Varianza, es decir:$$s(x)=\sqrt{Var(x)}.$$
De manera algo imprecisa, podemos decir que el conjunto de los datos se distribuye en "promedio" a lo largo del intervalo comprendido entre $\overline{x}-s(x)$ y $\overline{x}+s(x)$.
- Coeficiente de variación (en %) $CV(x)$: Es simplemente $$\frac{s(x)}{\overline{x}}\cdot 100.$$
PLAN DE TRABAJO para este tema.
- Lee atentamente las páginas 260 y 261; para hacerte con el lenguaje. Puedes ver también este Video1. (La explicación de los vídeos es casi exactamente como la haría yo en clase, por eso los he escogido entre los muchísimos vídeos que hay. Éstos me parecen especialmente claros)
- Lee las páginas 262 y 263. La frecuencia relativa será relevante en Probabilidad y la frecuencia absoluta acumulada será útil para hallar la Mediana. Quizá también te ayude este Video2
- Las páginas 266 y 267 puedes leerlas por encima: tratan de gráficos estadísticos. Está bien leerlas, pero quizá sea mejor que veas este Vídeo3.
- Lo que sí es muy importante es estudiar el texto y los ejemplos de las siguientes páginas. Hablan de parámetros centrales y de dispersión (Video4 y Vídeo5, la mención a la "desviación media " $D_m$ no la tengáis en cuenta). En particular, es interesante el ejemplo resuelto de la página 272.
- Puedes hacer los ejercicios de 22 y 23 de esa página.
- También el 68 de la página 278. Las soluciones, en la próxima entrada.