En resumen, la Estadística Descriptiva es cuando los resultados del análisis no pretenden ir más allá del conjunto de datos, y la Estadística Inferencial cuando el objetivo del estudio es generalizar a toda una población desde los resultados obtenidos de una muestra de datos.

El principal interés de la Estadística Inferencial radica en encontrar algo relacionado con una población a partir de una muestra de ella.


El DANE informa que Colombia ocupa el puesto 28 del ranking de 196 estados con un número de habitantes significativos. La población en los últimos cinco años es: 48.203.000 en 2015, 48.748.000 en 2016, 49.292.000 en 2017, 49.834.000 en 2018 y 50.374.000 en 2019. (ESTADÍSTICA DESCRIPTIVA). 

Una encuesta mostró que sólo el 46% de los estudiantes de undécimo grado podían resolver problemas que incluyeran fraccionarios, decimales y porcentajes. Además, sólo el 77% de los estudiantes de undécimo grado pudo sumar correctamente el costo de hamburguesas, papas fritas y gaseosas, que figuraban en el menú de un restaurante. (ESTADÍSTICA INFERENCIAL).


El muestreo aleatorio simple es aquel en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra.

El muestreo aleatorio estratificado trata de obtener una muestra proporcional representativa de cada uno de los estratos de la población.












La Estadística Inferencial tiene como objetivo generalizar los resultados de un subconjunto de datos a todo el conjunto.

Población: conjunto de datos que se desea estudiar. Estos datos deben verse como valores de una misma variable, la cual se utiliza para designar la población.

Muestra: subconjunto de datos que se seleccionan de la población.

Si la muestra = población, la generalización o estudio se le llama CENSO y es exacta.

Muestra Aleatoria: una muestra aleatoria de tamaño n está formada por n de estas variables (X1, X2, X3,... Xn). Todas siguen la misma distribución y son mutuamente independientes.

Parámetro: es la característica de la población que se desea estudiar y se convierte en el valor numérico que se le asigna a la población. 


La variancia sesgada o varianza poblacional, refleja a la perfección el significado de una medida de dispersión como un promedio de los cuadrados de las desviaciones y tiene una gran aplicación en el estudio de las probabilidades.

La variancia insesgada, varianza muestral o cuasivarianza, es más propicia en los cálculos estadísticos y se usa en las muestras.

Cuando el tamaño de la muestra es grande, (n – 1) será aproximadamente igual a n, por lo que este denominador tiene un impacto real en el cálculo de la varianza para muestras pequeñas. 

Estadístico o estimador: variable aleatoria que asigna un valor (estimación) a cada muestra de tamaño fijo.


Grados de libertad de la varianza y desviación típica: para la varianza muestral se divide entre n − 1, en vez de n. La razón es que la suma de las desviaciones xi − x¯ es siempre cero. Solamente n − 1 de las desviaciones al cuadrado pueden variar libremente.  

Ejercicio. En un estudio de dietética se tomaron los niveles metabólicos en siete personas y los datos fueron: 1.439, 1.362, 1.792, 1.614, 1.460, 1.666, 1.867.




Ejercicio. Los salarios por hora (en miles de pesos) de una muestra de empleados de una empresa X son: 12, 16, 18, 19, 20.




Ejercicio. Se tiene los datos de un subsidio, en miles de pesos, otorgado a 40 familias en una vereda.



Ejercicio. Se tiene los datos de un subsidio en miles de pesos otorgado a 40 familias en una vereda.




GRAFICAR LA FUNCIÓN DE DENSIDAD EN UNA DISTRIBUCIÓN NORMAL 

(Campana de Gauss)






Variabilidad o dispersión: hace referencia al grado de variación que hay en un conjunto de puntuaciones.


a)       las puntuaciones están muy próximas entre sí y concentradas en torno a la media aritmética, por lo que parece que existe poca dispersión en los datos.

b)      las puntuaciones están más alejadas entre sí y no están tan concentradas alrededor de la media, existiendo mayor variabilidad. 

Cuanto menor es la variabilidad en una distribución, más homogénea es la muestra de sujetos en la variable que se está midiendo.

Cuando existe más o menos dispersión en los datos, la muestra es más o menos heterogénea y las puntuaciones difieren entre sí.

Si hay máxima homogeneidad, todos los valores de la variable serían iguales entre sí y a la media y no habría variabilidad en los datos.

Coeficiente de Variación: la comparación del grado de variabilidad o dispersión entre dos conjuntos de puntuaciones en una misma unidad, se expresa en porcentajes.

Ejercicio. Una distribución tiene como media = 6,12 y una varianza de 1,61; y en otra, tiene como media = 102 y una varianza de 16. ¿Cuál de las dos distribuciones presenta mayor dispersión?.


El porcentaje de variación de la primera distribución es del 20,75%, mientras que el de la segunda distribución es del 3,92%. Por lo tanto, el grado de dispersión de los datos es mayor en el primer grupo, siendo el segundo grupo más homogéneo.

La mayor dispersión corresponderá al valor del coeficiente de variación mayor.




La distribución normal es un modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria continua a una situación ideal.

La distribución normal adapta una variable aleatoria continua a una función que depende de la media y la desviación típica. La función y la variable aleatoria tendrán la misma representación pero con ligeras diferencias.

La distribución normal es una distribución con forma de campana donde las desviaciones estándar sucesivas con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los datos. Estos valores de referencia son la base de muchas pruebas de hipótesis, como las pruebas Z y t.

La distribución normal es la distribución de probabilidades más importante para las variables aleatorias continuas. Karl Gauss (matemático y astrónomo, s. XVIII) contribuyó a la formación de los fundamentos teóricos que la sustentan: CAMPANA DE GAUSS.


Una variable aleatoria continua puede tomar cualquier número real: las rentabilidades de las acciones, los resultados de un parcial, el coeficiente de inteligencia IQ y los errores estándar.

Una variable aleatoria discreta toma valores enteros: el número de estudiantes en una asignatura.


Fórmula de la distribución normal

Dada una variable aleatoria X, decimos que la frecuencia de sus observaciones puede aproximarse satisfactoriamente (representar) a una distribución normal tal que:  X ~ N(µ, s) (Variable aleatoria X aproximada a una distribución normal).

Media o valor central = µ

Desviación típica = s


Representación

Función de densidad de probabilidad de una variable aleatoria que sigue una distribución normal.

CURVA DE DENSIDAD: Es una curva que Se halla siempre en el eje de las abscisas o por encima de él, y Se define por debajo un área exactamente igual a 1.

Una curva de densidad describe el aspecto general de una distribución. El área por debajo de la curva, y entre cualquier intervalo de valores, es la proporción de todas las observaciones que están situadas en dicho intervalo.


Propiedades

        Es una distribución simétrica. El valor de la media, la mediana y la moda coinciden, están ubicadas en el centro de la distribución

        Distribución unimodal. Los valores que son más frecuentes o que tienen más probabilidad de aparecer están alrededor de la media. En otras palabras, cuando nos alejamos de la media, la probabilidad de aparición de los valores y su frecuencia descienden. 

        Ambos lados (colas) de la distribución normal de probabilidades, se extienden indefinidamente y son asintóticos al eje horizontal (nunca tocan el eje horizontal). 

Tres curvas diferentes normales con desviación estándar (s) iguales, y medias (µ) diferentes:


Tres curvas diferentes normales con desviación estándar (s) diferentes, y medias (µ) iguales:


Tres curvas diferentes normales con desviación estándar (s) diferentes, y medias (µ) diferentes:


Ejercicio: un grupo de 1500 personas, tiene una distribución normal con la media (µ) = 65 kg y una desviación estándar (s) = 8 kg.

X tiene una distribución (X ~ N(µ, s)) de:  N(65;8)

(1). Se selecciona al azar una persona, hay una probabilidad aproximada de 68% que su peso esté entre 57 y 73 kg. Los límites del intervalo son: µ ± 1s

57 = µ – 1    s = 65 – 1 (8)

73 = µ + 1    s = 65 + 1 (8)

(2). Se selecciona al azar una persona, hay una probabilidad aproximada de 95%

que su peso esté entre 49 y 81 kg. Los límites del intervalo son: µ ± 2s

49 = µ – 1    s = 65 – 2 (8)

81 = µ + 1    s = 65 + 2 (8)

(3). Se selecciona al azar una persona, hay una probabilidad aproximada de 99,7%

que su peso esté entre 41 y 89 kg. Los límites del intervalo son: µ ± 3s

41 = µ – 1    s = 65 – 3 (8)

89 = µ + 1    s = 65 + 3 (8)

Aunque existen diversas curvas normales, todas ellas tienen propiedades comunes, como la regla empírica: REGLA DEL 68, 95, 99,7%.

El 68% de todas las observaciones se encuentran dentro del intervalo µ ± s

El 95% de todas las observaciones se encuentran dentro del intervalo µ ± 2s

El 99,7% de todas las observaciones se encuentran dentro del intervalo µ ± 3s


DISTRIBUCIÓN NORMAL ESTANDARIZADA

Si x es una observación de una distribución de media µ y desviación típica σ, el valor estandarizado de x es:

Los valores estandarizados se llaman a menudo valores z.

Un valor z nos dice a cuántas desviaciones típicas se encuentra la observación original de la media y en qué dirección. Las observaciones mayores que la media son positivas y las menores, negativas. 

Ejercicios: La distribución de las estaturas de las jóvenes es aproximadamente normal con µ = 1,64 m y σ = 0,06 m.

La altura estandarizada es:


Si tiene una estatura de 1,75 m de altura, entonces tiene una altura estandarizada de: 


Si tiene una estatura de 1,53 m de altura, entonces tiene una altura estandarizada de:


¿Qué proporción de todas los jóvenes miden menos de 1,75 m? Esta proporción es el área por debajo de la N(1,64, 0,06) situada a la izquierda de 1,75. 

Si tiene una estatura de 1,75 m de altura, entonces tiene una altura estandarizada de: 


Esta área es la misma que el área por debajo de la curva normal estandarizada situada a la izquierda de  z = 1,83.

z = 1,83 y el área 0,9664. 

La proporción de jóvenes que miden menos de 1,75 m es 0,9664 (cerca del 91%).



Ejercicio: El nivel alto de colesterol en la sangre puede aumentar el riesgo de enfermedades coronarias. Los niveles de colesterol superiores a 240 mg/dl exigen atención médica.

En una gran población de gente de la misma edad y sexo, la distribución del nivel de colesterol es aproximadamente normal.

Para jóvenes de 14 años, la media es µ = 170 miligramos de colesterol por decilitro de sangre (mg/dl) y la desviación típica es σ = 30 mg/dl.

¿Qué porcentaje de los jóvenes de 14 años tienen más de 240 mg/dl de colesterol?

(a). Planteamiento: La variable x es el nivel de colesterol en la sangre. La variable x tiene una distribución N(170, 30). Se calcula la proporción de jóvenes con x > 240.

(b). Estandarización: Resta la media, luego divide por la desviación típica, para convertir x en una z normal estandarizada:

c). Tabulación: En la tabla A se tiene que la proporción de observaciones menores que 2,33 es 0,9901.


Cerca del 99% de los jóvenes tienen niveles de colesterol menores que 240. El área situada a la derecha de 2,33 es, por tanto, 1 − 0,9901 = 0,0099. Este área es aproximadamente 0,01, o un 1%. Sólo un 1% de los jóvenes tienen niveles de colesterol tan altos.


¿Qué porcentaje de los jóvenes de 14 años tienen un nivel de colesterol entre de 170 y 240 mg/dl de colesterol? 




Ejercicio. Se tiene una población donde la desviación típica de la altura es 20 cm.

a). En una muestra aleatoria simple de 500 individuos se ha obtenido una altura media (muestral) de 174 cm. Hallar el intervalo de confianza al 95% para µ (población).


Intervalo de confianza: es el área que encierran dos valores simétricos entre –za/2 a za/2


Como en la tabla A (del estadístico Z) no se pueden encontrar dos valores que encierren el 95%, entonces buscamos en esta za/2 que deje a su izquierda el 97,5% (2,5% + 95%).


Rta: entre ese intervalo se encuentra la media de altura de esa población.


b). ¿Cuál debe ser el tamaño mínimo de la muestra para que el correspondiente intervalo de confianza para µ al 90%, tenga de amplitud 5 cm?




Ejercicio. En una población se tiene que la estatura media es de 167 cm y la desviación típica es 3,2 cm.

Se toma una muestra de 10 personas. Calcular la probabilidad que la media muestral sea menor de 165 cm.




Ejercicio. Una muestra aleatoria que sigue una distribución normal de media 180 y la desviación estándar de 300.

Se toma una muestra aleatoria de 10. Calcular la probabilidad que la media muestral sea menor a 160. 






Ejercicio. Una muestra aleatoria que sigue una distribución normal de media 12 y la varianza de 16.

Se toma una muestra aleatoria de 9. Calcular la probabilidad que la media muestral sea superior a 14. 







::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::



El análisis multivariante es el conjunto de técnicas estadísticas que simultáneamente analizan múltiples resultados en los datos obtenidos en una investigación.

Todas las variables deben ser aleatorias y relacionadas de tal manera que el efecto que producen no se interpreten de manera individual.



Es más frecuente encontrar investigaciones de sólo una variable a medir.

Número de personas por familia; cantidad de motos en una ciudad; cantidad de hijos, etc.

Cuando dos variables se miden en una sola unidad experimental, los datos resultantes se denominan DATOS BIVARIADOS.

Las dos variables se pueden estudiar por separado, como también explorar la relación entre ellas.


Los métodos gráficos para datos bivariados, cualitativos o cuantitativos permiten estudiar las variables simultáneamente.

Cuando al menos una de las dos variables es cualitativa, se pueden usar gráficas circulares (tortas), gráficas de líneas y gráficas de barras para presentar y describir los datos.

Cuando se han medido en dos diferentes poblaciones o grupos, pueden usar dos gráficas circulares lado a lado o una gráfica de barras en la que las barras para las dos poblaciones se colocan una al lado de la otra, o gráfica de barras apiladas.








VARIABLES CUALITATIVAS


GRÁFICAS DE DISPERSIÓN PARA DOS VARIABLES CUANTITATIVAS

Cuando las dos variables que hayan de presentarse en una gráfica son cuantitativas, una de ellas se grafica a lo largo del eje horizontal y la otra a lo largo del eje vertical. Cada par de valores de datos se grafica como un solo punto.

Se tiene las respuestas de un estudio a seis familias sobre cantidad de personas y lo que gastan en alimentación por semana. Trazar la gráfica de dispersión. 

x representa los miembros de una familia,

y son los costos semanales de alimentación


RELACIÓN LINEAL PARA DATOS CUANTITATIVOS BIVARIADOS


Seleccionar los datos

Insertar dispersión

Clic en los puntos de dispersión

Agregar línea de tendencia

Presentar ecuación de la recta

R cuadrado (coeficiente de determinación)


ESTADÍSTICA BIVARIADA















0 Comentarios