En resumen, la Estadística Descriptiva es cuando los resultados del análisis no pretenden ir más allá del conjunto de datos, y la Estadística Inferencial cuando el objetivo del estudio es generalizar a toda una población desde los resultados obtenidos de una muestra de datos.

El principal interés de la Estadística Inferencial radica en encontrar algo relacionado con una población a partir de una muestra de ella.


El DANE informa que Colombia ocupa el puesto 28 del ranking de 196 estados con un número de habitantes significativos. La población en los últimos cinco años es: 48.203.000 en 2015, 48.748.000 en 2016, 49.292.000 en 2017, 49.834.000 en 2018 y 50.374.000 en 2019. (ESTADÍSTICA DESCRIPTIVA). 

Una encuesta mostró que sólo el 46% de los estudiantes de undécimo grado podían resolver problemas que incluyeran fraccionarios, decimales y porcentajes. Además, sólo el 77% de los estudiantes de undécimo grado pudo sumar correctamente el costo de hamburguesas, papas fritas y gaseosas, que figuraban en el menú de un restaurante. (ESTADÍSTICA INFERENCIAL).


El muestreo aleatorio simple es aquel en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra.

El muestreo aleatorio estratificado trata de obtener una muestra proporcional representativa de cada uno de los estratos de la población.












La Estadística Inferencial tiene como objetivo generalizar los resultados de un subconjunto de datos a todo el conjunto.

Población: conjunto de datos que se desea estudiar. Estos datos deben verse como valores de una misma variable, la cual se utiliza para designar la población.

Muestra: subconjunto de datos que se seleccionan de la población.

Si la muestra = población, la generalización o estudio se le llama CENSO y es exacta.

Muestra Aleatoria: una muestra aleatoria de tamaño n está formada por n de estas variables (X1, X2, X3,... Xn). Todas siguen la misma distribución y son mutuamente independientes.

Parámetro: es la característica de la población que se desea estudiar y se convierte en el valor numérico que se le asigna a la población. 


La variancia sesgada o varianza poblacional, refleja a la perfección el significado de una medida de dispersión como un promedio de los cuadrados de las desviaciones y tiene una gran aplicación en el estudio de las probabilidades.

La variancia insesgada, varianza muestral o cuasivarianza, es más propicia en los cálculos estadísticos y se usa en las muestras.

Cuando el tamaño de la muestra es grande, (n – 1) será aproximadamente igual a n, por lo que este denominador tiene un impacto real en el cálculo de la varianza para muestras pequeñas. 

Estadístico o estimador: variable aleatoria que asigna un valor (estimación) a cada muestra de tamaño fijo.


Grados de libertad de la varianza y desviación típica: para la varianza muestral se divide entre n − 1, en vez de n. La razón es que la suma de las desviaciones xi − x¯ es siempre cero. Solamente n − 1 de las desviaciones al cuadrado pueden variar libremente.  

Ejercicio. En un estudio de dietética se tomaron los niveles metabólicos en siete personas y los datos fueron: 1.439, 1.362, 1.792, 1.614, 1.460, 1.666, 1.867.




Ejercicio. Los salarios por hora (en miles de pesos) de una muestra de empleados de una empresa X son: 12, 16, 18, 19, 20.




Ejercicio. Se tiene los datos de un subsidio, en miles de pesos, otorgado a 40 familias en una vereda.



Ejercicio. Se tabla muestra los datos de las estaturas de 22 personas.

Ejercicio. Se tiene los datos de un subsidio en miles de pesos otorgado a 40 familias en una vereda.



GRAFICAR LA FUNCIÓN DE DENSIDAD EN UNA DISTRIBUCIÓN NORMAL 

(Campana de Gauss)






Variabilidad o dispersión: hace referencia al grado de variación que hay en un conjunto de puntuaciones.


a)       las puntuaciones están muy próximas entre sí y concentradas en torno a la media aritmética, por lo que parece que existe poca dispersión en los datos.

b)      las puntuaciones están más alejadas entre sí y no están tan concentradas alrededor de la media, existiendo mayor variabilidad. 

Cuanto menor es la variabilidad en una distribución, más homogénea es la muestra de sujetos en la variable que se está midiendo.

Cuando existe más o menos dispersión en los datos, la muestra es más o menos heterogénea y las puntuaciones difieren entre sí.

Si hay máxima homogeneidad, todos los valores de la variable serían iguales entre sí y a la media y no habría variabilidad en los datos.

Coeficiente de Variación: la comparación del grado de variabilidad o dispersión entre dos conjuntos de puntuaciones en una misma unidad, se expresa en porcentajes.

Ejercicio. Una distribución tiene como media = 6,12 y una varianza de 1,61; y en otra, tiene como media = 102 y una varianza de 16. ¿Cuál de las dos distribuciones presenta mayor dispersión?.


El porcentaje de variación de la primera distribución es del 20,75%, mientras que el de la segunda distribución es del 3,92%. Por lo tanto, el grado de dispersión de los datos es mayor en el primer grupo, siendo el segundo grupo más homogéneo.

La mayor dispersión corresponderá al valor del coeficiente de variación mayor.




La distribución normal es un modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria continua a una situación ideal.

La distribución normal adapta una variable aleatoria continua a una función que depende de la media y la desviación típica. La función y la variable aleatoria tendrán la misma representación pero con ligeras diferencias.

La distribución normal es una distribución con forma de campana donde las desviaciones estándar sucesivas con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los datos. Estos valores de referencia son la base de muchas pruebas de hipótesis, como las pruebas Z y t.

La distribución normal es la distribución de probabilidades más importante para las variables aleatorias continuas. Karl Gauss (matemático y astrónomo, s. XVIII) contribuyó a la formación de los fundamentos teóricos que la sustentan: CAMPANA DE GAUSS.


Una variable aleatoria continua puede tomar cualquier número real: las rentabilidades de las acciones, los resultados de un parcial, el coeficiente de inteligencia IQ y los errores estándar.

Una variable aleatoria discreta toma valores enteros: el número de estudiantes en una asignatura.


Fórmula de la distribución normal

Dada una variable aleatoria X, decimos que la frecuencia de sus observaciones puede aproximarse satisfactoriamente (representar) a una distribución normal tal que:  X ~ N(µ, s) (Variable aleatoria X aproximada a una distribución normal).

Media o valor central = µ

Desviación típica = s


Representación

Función de densidad de probabilidad de una variable aleatoria que sigue una distribución normal.

CURVA DE DENSIDAD: Es una curva que Se halla siempre en el eje de las abscisas o por encima de él, y Se define por debajo un área exactamente igual a 1.

Una curva de densidad describe el aspecto general de una distribución. El área por debajo de la curva, y entre cualquier intervalo de valores, es la proporción de todas las observaciones que están situadas en dicho intervalo.


Propiedades

        Es una distribución simétrica. El valor de la media, la mediana y la moda coinciden, están ubicadas en el centro de la distribución

        Distribución unimodal. Los valores que son más frecuentes o que tienen más probabilidad de aparecer están alrededor de la media. En otras palabras, cuando nos alejamos de la media, la probabilidad de aparición de los valores y su frecuencia descienden. 

        Ambos lados (colas) de la distribución normal de probabilidades, se extienden indefinidamente y son asintóticos al eje horizontal (nunca tocan el eje horizontal). 

Tres curvas diferentes normales con desviación estándar (s) iguales, y medias (µ) diferentes:


Tres curvas diferentes normales con desviación estándar (s) diferentes, y medias (µ) iguales:


Tres curvas diferentes normales con desviación estándar (s) diferentes, y medias (µ) diferentes:


Ejercicio: un grupo de 1500 personas, tiene una distribución normal con la media (µ) = 65 kg y una desviación estándar (s) = 8 kg.

X tiene una distribución (X ~ N(µ, s)) de:  N(65;8)

(1). Se selecciona al azar una persona, hay una probabilidad aproximada de 68% que su peso esté entre 57 y 73 kg. Los límites del intervalo son: µ ± 1s

57 = µ – 1    s = 65 – 1 (8)

73 = µ + 1    s = 65 + 1 (8)

(2). Se selecciona al azar una persona, hay una probabilidad aproximada de 95%

que su peso esté entre 49 y 81 kg. Los límites del intervalo son: µ ± 2s

49 = µ – 1    s = 65 – 2 (8)

81 = µ + 1    s = 65 + 2 (8)

(3). Se selecciona al azar una persona, hay una probabilidad aproximada de 99,7%

que su peso esté entre 41 y 89 kg. Los límites del intervalo son: µ ± 3s

41 = µ – 1    s = 65 – 3 (8)

89 = µ + 1    s = 65 + 3 (8)

Aunque existen diversas curvas normales, todas ellas tienen propiedades comunes, como la regla empírica: REGLA DEL 68, 95, 99,7%.

El 68% de todas las observaciones se encuentran dentro del intervalo µ ± s

El 95% de todas las observaciones se encuentran dentro del intervalo µ ± 2s

El 99,7% de todas las observaciones se encuentran dentro del intervalo µ ± 3s


DISTRIBUCIÓN NORMAL ESTANDARIZADA

Si x es una observación de una distribución de media µ y desviación típica σ, el valor estandarizado de x es:

Los valores estandarizados se llaman a menudo valores z.

Un valor z nos dice a cuántas desviaciones típicas se encuentra la observación original de la media y en qué dirección. Las observaciones mayores que la media son positivas y las menores, negativas. 

Ejercicios: La distribución de las estaturas de las jóvenes es aproximadamente normal con µ = 1,64 m y σ = 0,06 m.

La altura estandarizada es:


Si tiene una estatura de 1,75 m de altura, entonces tiene una altura estandarizada de: 


Si tiene una estatura de 1,53 m de altura, entonces tiene una altura estandarizada de:


¿Qué proporción de todas los jóvenes miden menos de 1,75 m? Esta proporción es el área por debajo de la N(1,64, 0,06) situada a la izquierda de 1,75. 

Si tiene una estatura de 1,75 m de altura, entonces tiene una altura estandarizada de: 


Esta área es la misma que el área por debajo de la curva normal estandarizada situada a la izquierda de  z = 1,83.

z = 1,83 y el área 0,9664. 

La proporción de jóvenes que miden menos de 1,75 m es 0,9664 (cerca del 91%).











Ejercicio: El nivel alto de colesterol en la sangre puede aumentar el riesgo de enfermedades coronarias. Los niveles de colesterol superiores a 240 mg/dl exigen atención médica.

En una gran población de gente de la misma edad y sexo, la distribución del nivel de colesterol es aproximadamente normal.

Para jóvenes de 14 años, la media es µ = 170 miligramos de colesterol por decilitro de sangre (mg/dl) y la desviación típica es σ = 30 mg/dl.

¿Qué porcentaje de los jóvenes de 14 años tienen más de 240 mg/dl de colesterol?

(a). Planteamiento: La variable x es el nivel de colesterol en la sangre. La variable x tiene una distribución N(170, 30). Se calcula la proporción de jóvenes con x > 240.

(b). Estandarización: Resta la media, luego divide por la desviación típica, para convertir x en una z normal estandarizada:

c). Tabulación: En la tabla A se tiene que la proporción de observaciones menores que 2,33 es 0,9901.



Cerca del 99% de los jóvenes tienen niveles de colesterol menores que 240. El área situada a la derecha de 2,33 es, por tanto, 1 − 0,9901 = 0,0099. Este área es aproximadamente 0,01, o un 1%. Sólo un 1% de los jóvenes tienen niveles de colesterol tan altos.

¿Qué porcentaje de los jóvenes de 14 años tienen un nivel de colesterol entre de 170 y 240 mg/dl de colesterol? 



Ejercicio. Se tiene una población donde la desviación típica de la altura es 20 cm.

a). En una muestra aleatoria simple de 500 individuos se ha obtenido una altura media (muestral) de 174 cm. Hallar el intervalo de confianza al 95% para µ (población).


Intervalo de confianza: es el área que encierran dos valores simétricos entre –za/2 a za/2


Como en la tabla A (del estadístico Z) no se pueden encontrar dos valores que encierren el 95%, entonces buscamos en esta za/2 que deje a su izquierda el 97,5% (2,5% + 95%).


Rta: entre ese intervalo se encuentra la media de altura de esa población.


b). ¿Cuál debe ser el tamaño mínimo de la muestra para que el correspondiente intervalo de confianza para µ al 90%, tenga de amplitud 5 cm?



Ejercicio. En una población se tiene que la estatura media es de 167 cm y la desviación típica es 3,2 cm.

Se toma una muestra de 10 personas. Calcular la probabilidad que la media muestral sea menor de 165 cm.




Ejercicio. Una muestra aleatoria que sigue una distribución normal de media 180 y la desviación estándar de 300.

Se toma una muestra aleatoria de 10. Calcular la probabilidad que la media muestral sea menor a 160. 





Ejercicio. Una muestra aleatoria que sigue una distribución normal de media 12 y la varianza de 16.

Se toma una muestra aleatoria de 9. Calcular la probabilidad que la media muestral sea superior a 14. 













::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::



La distribución normal es útil para generar algunos valores de una determinada variable normal para ejemplificar un resultado.

Variables aleatorias mutuamente independientes:  X1, X2,… Xn ~  N(0,1):

Suma muestral (Sn):

Sn = X1 + X2 + X3 + … Xn ~  N(0,1): 

Valores aproximados de la variable Z ~ N(0,1), se pasa a normal estándar la distribución aproximada de Sn:

Ejercicio. Generar cinco valores de la variable normal estándar Z, si n = 40.


Para generar valores aproximados de una variable normal no estándar X ~ N(µ, s2), para n ≥ 30


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


También se conoce como distribución ji cuadrado o distribución de Pearson. (Pearson K, 1900).

Es una prueba no paramétrica que mide discrepancia entre una distribución de frecuencias observadas y esperadas.

Es una distribución de probabilidad de una variable aleatoria continua. Es un caso particular la distribución gamma.

n = grados de libertad (entero > 0)

También se puede obtener sumando los cuadrados de normales estándar N(0, 1):


La función de densidad es la misma de gamma:

A medida que aumentan sus grados de libertad se va aproximando a la distribución normal

Los valores que aparecen en la Tabla de la Normal Estándar son probabilidades.

Los valores que aparecen en la Tabla Chi Cuadrado son los valores de los percentiles de la distribución.

El valor correspondiente, de acuerdo con los grados de libertad se pueden buscar en la Tabla o por medio de un software estadístico (Minitab).

PROPIEDADES

Es asimétrica positiva


Reproductividad

Si se tienen dos chi cuadrado independientes con n y m grados de libertad, la suma es otra  distribución chi cuadrado con parámetro n +m.   (Es la misma propiedad de distribución gamma).

Para poder sumar dos distribución gamma, las dos gamma deben ser independiente pero con el mismo l. Así como en la chi cuadrado l = ½.

Convergencia

Cuando n es suficiente grande, la chi cuadrado converge a una normal que tiene de media igual a n y una varianza de 2n.  

Se puede calcular chi cuadrado, conociendo la varianza poblacional: s2

n – 1 = grados de libertad


CAMPOS DE VARIACIÓN

Posibles valores que puede tomar la variable aleatoria continua:  

es porque al elevar al cuadrado no puede quedar negativo. Entonces la suma de todos ellos debe ser mayor o igual a cero:

Ejemplo: hallar la probabilidad que chi cuadrado con dos grados de libertad sea mayor o igual que 6, menor o igual que 3 y menor o igual que -1.


FUNCIÓN DENSIDAD DE PROBABILIDAD f(x) 

Es la que permite calcular la probabilidad

Propiedades:

Para evitar usar la integral, entonces se emplea la tabla de chi cuadrado:

La primera gráfica es asimétrica, pero en la medida en que aumenta el número de grado de libertad  (n) la distribución de chi cuadrado tiende a ser una distribución normal.  






Ejercicio. Los tiempos requeridos de cierto transporte distrital para alcanzar uno de sus destinos forman una distribución normal con una desviación estándar de s = 1 hora.  Si se elige al azar una muestra de 17 tiempos, hallar la probabilidad de que la varianza muestral sea > 2.


Ejercicio. Una población con distribución aproximadamente normal tiene una varianza de 0,8. Calcular la probabilidad que una muestra aleatoria n = 6 tenga una varianza mayor o igual a 1,2.











:::::::::::::::::::::::::::::::::::::::::::::::::::::::

Es el seudónimo que el descubridor (matemático W.S Gosset (1908)) publicó del resultado.


Es el cociente de una N(0,1) dividido entre la raíz de la chi cuadrado entre los grados de libertad (n).

Z no tiene parámetros, es fijo, la media es 0 y la varianza es 1.

La chi cuadrado como es la suma de los cuadrados de las normales estándar, toma solo valores del 0 al +¥.

Como la Z normal estándar toma valores de ¥ a +¥, en la t Student toma valores de ¥ a +¥.

La gráfica de la función de densidad se parece a la gráfica de distribución Normal estándar, es simétrica con respecto al cero, pero tiene las “colas más pesadas”, tiene más área o más probabilidad en las colas que en la distribución normal.


T Student se caracteriza por un parámetro denominado grados de libertad (df), siendo df > 2.

En la práctica df = n – 1, donde n es el tamaño de la muestra que se esté analizando.


PROPIEDADES


Es simétrica positiva, unimodal y con colas más pesadas que la N(0, 1).

La esperanza es igual a cero, para cualquier n > 1





La tn está tabulada para percentiles.


No posee la propiedad de reproductividad


Convergencia



Cuando n es suficiente grande la gráfica de tn se parece a la gráfica de distribución normal


FUNCIÓN DENSIDAD DE T STUDENT



Para muestras ≥ 30 casos, se usa la Distribución Normal. Sin embargo, para muestra menores a 30, se usa la teoría de muestreo pequeño, que está relacionada con la distribución Chi-Cuadrado, t de Student o la distribución F.

En la distribución normal N(µ, s) se conoce s, el tamaño de la muestra (≥ 30) y se sabe que es distribución normal.

En la distribución t Student, no se conoce s y el tamaño de la muestra es menor que 30 casos, sin saber si la distribución muestreada es normal o no.


La distribución t student es caracterizada por el número de grados de libertad (v). Es similar a la distribución de z normal, con media igual a cero y es simétrica en forma de campana. Su forma depende en el tamaño de la muestra.









Ejercicio. Una población con distribución aproximadamente normal tiene una media especificada de 5,5, siendo su varianza desconocida. Calcular la probabilidad que una muestra aleatoria de tamaño 6 tenga una media mayor o igual a 6,5 con una desviación estándar de 0,5.


Ejercicio. Se tiene una caja con tarjetas, cada una con un número. Para la población se tiene µ = 10 y s = 4. Calcular el valor del estadístico t, aunque no se conozca la desviación típica de la muestra.

Datos de la muestra (n = 9): 4, 13, 8, 12, 8, 15, 14, 7, 8.


::::::::::::::::::::::::::::::::::::::::::::::::::::



:::::::::::::::::::::::::::::::::::::::::::::::::::

La distribución F de Fisher es Snedecor

Se emplea para el contraste de hipótesis (análisis de varianza)

La distribución F es asimétrica, positiva, nunca toma valores menores que 0.

v1 y v2 son grados de libertad, el valor de F que acumula un área a la izquierda de a%. 


El valor dado en las tablas de Distribución F, el valor de a es mayor a 0,9 y los valores de f son mayores a 1.

Propiedad recíproca

Si X es una variable con distribución F con v1 y v2 grados de libertad, entonces la variable Y = 1/x










::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::



::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::




Ejercicio. Una bolsa de valores está en servicio durante 8 horas. En promedio, el número de operaciones por hora es de 6.

La variable aleatoria x = tiempo entre dos órdenes de compra/venta de la acción observada.

¿Cuál la probabilidad que una orden arribe en los próximos 12 minutos, dado que acaba de ocurrir una orden?

P(x ≤ 0,2)   (12 minutos = 0,2 horas)


¿Cuál la probabilidad que llegue una orden entre los próximos 6 y 12 minutos?


¿Cuál la probabilidad que una orden llegue después de los próximos 18 minutos?


Ejercicio. El tiempo útil de una marca de batería sigue un modelo exponencial con un promedio de fallas igual a 360 días.

a). ¿Qué probabilidad hay que el tiempo de falla sea menor que 400 días?. (Confiabilidad de la batería).

b). ¿Qué probabilidad hay que el tiempo de falla sea mayor que 360 días?


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::



El análisis multivariante es el conjunto de técnicas estadísticas que simultáneamente analizan múltiples resultados en los datos obtenidos en una investigación.

Todas las variables deben ser aleatorias y relacionadas de tal manera que el efecto que producen no se interpreten de manera individual.



Es más frecuente encontrar investigaciones de sólo una variable a medir.

Número de personas por familia; cantidad de motos en una ciudad; cantidad de hijos, etc.

Cuando dos variables se miden en una sola unidad experimental, los datos resultantes se denominan DATOS BIVARIADOS.

Las dos variables se pueden estudiar por separado, como también explorar la relación entre ellas.


Los métodos gráficos para datos bivariados, cualitativos o cuantitativos permiten estudiar las variables simultáneamente.

Cuando al menos una de las dos variables es cualitativa, se pueden usar gráficas circulares (tortas), gráficas de líneas y gráficas de barras para presentar y describir los datos.

Cuando se han medido en dos diferentes poblaciones o grupos, pueden usar dos gráficas circulares lado a lado o una gráfica de barras en la que las barras para las dos poblaciones se colocan una al lado de la otra, o gráfica de barras apiladas.








VARIABLES CUALITATIVAS


GRÁFICAS DE DISPERSIÓN PARA DOS VARIABLES CUANTITATIVAS

Cuando las dos variables que hayan de presentarse en una gráfica son cuantitativas, una de ellas se grafica a lo largo del eje horizontal y la otra a lo largo del eje vertical. Cada par de valores de datos se grafica como un solo punto.

Se tiene las respuestas de un estudio a seis familias sobre cantidad de personas y lo que gastan en alimentación por semana. Trazar la gráfica de dispersión. 

x representa los miembros de una familia,

y son los costos semanales de alimentación


RELACIÓN LINEAL PARA DATOS CUANTITATIVOS BIVARIADOS


GRAFICAR:

Seleccionar los datos

Insertar dispersión

Clic en los puntos de dispersión

Agregar línea de tendencia

Presentar ecuación de la recta

R cuadrado (coeficiente de determinación)


ESTADÍSTICA BIVARIADA







ERROR ESTÁNDAR

Cuando se tienen dos poblaciones, es necesario distinguir sus varianzas y tamaños de muestras. El error de distribución es la desviación estándar de la misma:

Si los tamaños de las muestras y las varianzas de las poblaciones son iguales:

Ejercicio. Existen dos especies de plantas, con alturas promedios de 32 y 22 cm y varianzas de 60 cm y 70 cm respectivamente.  Para la primera variedad se toma una muestra de 10 plantas y para la segunda una muestra de 14 plantas.

¿Cuál es la probabilidad que la media de la muestra de la variedad 1 exceda a la variedad 2, en cinco o más unidades de altura?.



Ejercicio. En un estudio de “pesos” de estudiantes de quinto primaria se tomó una muestra de 20 niños y 25 niñas, siguiendo una distribución normal.

Para el caso de los niños, la media de los pesos está en 45 kg y una desviación estándar de 6 kg, mientras que para las niñas la media de los pesos es 38 kg y la desviación estándar en 5 kg.

¿Cuál es la probabilidad que el promedio de los pesos de los 20 niños sea al menos 9 kg más que el de las 25 niñas?.

(x1) = promedio de los pesos de 20 niños

(x2) = promedio de los pesos de 25 niños



Ejercicio. La vida útil de un producto electrónico A tiene como promedio 7,2 años con una desviación estándar de 0,8 años, mientras que un producto B tiene como promedio 6,7 años con una desviación estándar de 0,7 años.

¿Cuál es la probabilidad que una muestra aleatoria de 34 elementos del producto A tenga una vida promedio de al menos un años más que la de una muestra aleatoria de 40 elementos del producto B?.

(x1) = promedio de 34 elementos producto A

(x2) = promedio de 40 elementos producto B


:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


HIPÓTESIS NULAS:

Expresa ausencia de relación, diferencia, causalidad, etc., entre dos o más variables. Se formula para ser contrastada con la realidad a partir de la información obtenida del problema, refutan o niegan.

Ho: Las ofertas de programas profesionales en la Universidad Z, no satisface la demanda de formación académica.

Ho: Las TIC no representan una ventaja preponderante en los estudiantes de pregrado que requieren de las prácticas para complementar lo teórico.

Ho: No hay relación entre la autoestima y el temor al éxito. (Hipótesis nula respecto de una correlación).

Ho: La percepción de la similitud en religión, valores y creencias no provoca mayor atracción. (Hipótesis nula que niega la relación causal).


HIPÓTESIS DE INVESTIGACIÓN:

Se expresa como una aseveración, conjetura o proposición sobre las probables relaciones entre dos o más variables.

HIPÓTESIS DESCRIPTIVA:

Describe una situación relacional entre las variables que se someten a estudio.

La ansiedad en las personas bebedoras de licor se elevará en esta época de pandemia.

HIPÓTESIS CORRELACIONAL:

Expresa una posible asociación o relación entre dos o más variables, sin que importe en orden de presentación de las variables.

A mayor autoestima, habrá menor el temor al éxito. (una variable aumenta, la otra disminuye, o viceversa).

Quienes logran puntajes altos en la asignatura de matemáticas tienden a alcanzar los puntajes más altos en la asignatura de estadística.


HIPÓTESIS ESTADÍSTICAS:

Se expresa en términos de símbolos estadísticos o ecuación matemática que identifique vínculos estadísticos.

HIPÓTESIS DE ESTIMACIÓN:

Evalúan la suposición respecto al valor de alguna característica de una muestra de individuos o unidades de análisis.

Hi:  > 2000  (la media de ingresos mensuales es mayor a U$2000)

Ho:  = 2000  (la media de ingresos mensuales es igual a U$2000)

Ha:  < 2000  (la media de ingresos mensuales es menor a U$2000)

HIPÓTESIS DE CORRELACIÓN:

Transforma una situación de correlación entre dos o más variables a la simbología estadística propia de las pruebas estadísticas de correlación.

Hi: rxy ¹ 0  (no es igual a cero, o ambas variables están correlacionadas)

Ho: rxy = 0  (las dos variables no están correlacionadas, su correlación es 0)

Hi: rxyz ¹ 0  (no es igual a cero, o las tres variables están correlacionadas)

Ho: rxyz = 0  (las tres variables no están correlacionadas, su correlación es 0)

HIPÓTESIS DE DIFERENCIA DE MEDIAS:

Compara una estadística entre dos o más grupos.

Hi: 1 ¹ 2   (el promedio del grupo uno es diferente al promedio del grupo 2).


Como no es factible recoger información sobre todas y cada una de las unidades de observación (individuos) de una población, en la investigación se diseña la recolección de datos respecto a un subconjunto o parte representativa de la población.

El tamaño de la muestra está condicionado por los objetivos de estudio, que determinarán su diseño, las variables a considerar y el método planteado.

Para una población infinita (si la población es igual a 100.000 o más unidades de observación).


Para una población finita

M = tamaño de la población


Una corporación desea determinar el promedio de sus clientes en sus cuentas de ahorros. La desviación estándar de las cuentas es estimada por la corporación en $40.000.

a). Cuál es el tamaño de la muestra, donde el error de estimación no exceda en $20.000.


b). Cuál es el tamaño de la muestra, donde el error de estimación no exceda en $40.000.




¿Cuántas observaciones debe constar las muestras si se requiere que dé resultados con una precisión de ±0,005 y con una confianza del 95%, si se conoce que tiene una desviación típica del 0,0068?



Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza del 95%


Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza del 99%



¿A cuántas familias se tienen que seleccionar para conocer la preferencia del mercado en cuanto a las marcas de shampoo para bebé, si se desconoce la población total?


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::


PRUEBA DE HIPÓTESIS: Procedimiento basado en evidencia de la muestra y la teoría de la probabilidad para determinan si la hipótesis es una afirmación razonable.

La prueba de hipótesis comienza con una afirmación, o suposición, sobre un parámetro de la población, como es la media poblacional.

1. Planteamiento de hipótesis

Ho: hipótesis nula. Afirmación (o enunciado) acerca del valor de un parámetro.

Ho: µ = 500  (la media población es igual a 500)

H1: hipótesis alternativa. Afirmación que se aceptará si los datos muestrales proporcionan amplia evidencia que la hipótesis nula es falsa, es decir, si los resultados de una muestra no respaldan la hipótesis nula.

H1: µ ¹ 500  (la media población no es igual a 500)


2. Selección del Nivel de Significancia o de riesgo

Es la probabilidad de rechazar la hipótesis nula, cuando en realidad es verdadera. El nivel de significancia se denota con (a).

Dependiendo de la naturaleza de la hipótesis y del tamaño de la muestra, el tipo de distribución es diferente.

(a/2) representa el porcentaje del nivel de significancia o de riesgo, son las regiones donde se rechaza la hipótesis nula cuando es verdadera.

(1 – a) indica la probabilidad de aceptar la hipótesis nula.

(– Zo, Zo) identifican el valor del estadístico de prueba.

Cuando se rechaza la hipótesis nula, Ho, cuando en realidad debe aceptarse (Error Tipo I).

Cuando se acepta la hipótesis nula, Ho, cuando en realidad debe rechazarse (Error Tipo II). 

3. Estadístico de Prueba

Se pueden utilizar z, chi, t o F como estadísticos de prueba. Con este valor determinado a partir de la información de la muestra, se decide si se rechaza la hipótesis nula.

4. Regla de decisión

Es un enunciado sobre las condiciones específicas en que se rechaza la hipótesis nula y aquellas en las que no se rechaza. La región o área de rechazo define la ubicación de todos esos valores que son tan grandes o pequeños que la probabilidad de que ocurran es una hipótesis nula verdaderamente es lejana.

El área en que se acepta la hipótesis nula se ubica a la izquierda de 1,65.

El área en que se rechaza la hipótesis nula se ubica a la derecha de 1,65.
Se aplica una prueba de una sola cola.

Nivel de significancia de 0,05.

El valor de 1,65 es el punto crítico que separa las regiones en que se acepta o rechaza la hipótesis nula.


5. Toma de decisiones

Al calcular el estadístico de la prueba, comparándolo con el valor crítico y tomar la decisión de aceptar o rechazar la hipótesis nula. 

Suponiendo que, de acuerdo con la información de la muestra, se obtiene que z = 2,34, se rechaza la hipótesis nula, con un nivel de significancia de 0,05, porque 2,34 se localiza en la región de derecha, es decir está más allá que 1,65. 


En caso que z = 0,71, la hipótesis nula no se rechaza.

En una muestra aleatoria de 100 productos se tiene una media de 71,8 con una desviación de 8,9. Con un nivel de significancia de 5%, probar la hipótesis que el promedio de todos los productos es igual a 70.

Ho: µ = 70

H1: µ > 70


La producción semanal de cajas plásticas en una compañía sigue una distribución normal, con una media de 200 y una desviación estándar de 16. Nivel de significancia del 0,01.

La empresa adquirió tecnología de punta y más personal y pretende investigar si la producción semanal de cajas aumentó.

La cantidad media de cajas producidas el año anterior fue de 203,5, tomando como referencia 50 semanas.

Ho: la media de la población es 200.   Ho: µ = 200

H1: la media es diferente de 200.         H1: µ ¹ 200

La prueba es de dos colas, pues la hipótesis alternativa no indica dirección alguna.  La mitad de 0,01 es 0,005 y se ubica en cada cola. Por tanto, el área que no se rechaza Ho, se ubica entre las dos colas, es 0,99.

Si z se ubica entre – 2,58 y +2,58, la hipótesis nula no se rechaza.

Si z no se encuentra entre – 2,58 y +2,58, la hipótesis alternativa se acepta.



Cuando se conoce la desviación estándar de la población s, se aplica:

Y cuando no se conoce la desviación estándar de la población s, puede calcularse por medio de la desviación estándar de la muestra, s:

 

Ho: µ ≥ 200

H1: µ ≤ 200



En una muestra aleatoria normal se tomaron los siguientes resultados: 15, 17, 18, 20 y 23. Con un nivel de significancia de 10%, probar la hipótesis que la media de la población es mayor a 18.

Ho: µ > 18

H1: µ = 18




La Chi Cuadrado permite comprobar si los datos observados difieren significativamente de los valores teóricos esperados.

Las pruebas Chi Cuadrado (pruebas no paramétricas) miden la discrepancia entre unos datos observados y otros esperados.

PRUEBAS: Pruebas de Bonda del Ajuste y Pruebas de Independencia.

La bondad de ajuste es una prueba que determina si existe evidencia significativa en contra de que una población se distribuye de cierto modo, utilizando la información dada por una muestra.

#E = Evento. Es un subconjunto del espacio muestral.

#U = Espacio Muestral. Es el conjunto de todos los posibles resultados que se pueden obtener al realizar el experimento. Es todo lo que puede ocurrir al realizar un experimento.


Se lanza un dado, qué probabilidad existe que el resultado sea impar.

U = {1, 2, 3, 4, 5, 6}

E = {1, 3, 5}


Para un dado legal, la probabilidad de obtener cualquiera de los seis resultados posibles en un lanzamiento es 1/6.

Ho: El dado es legal.

La tabla dada muestra los resultados obtenidos al lanzar el dado 36 veces.

Una forma de probar si el dado es legal es realizando una prueba de significancia, calculando la probabilidad de obtener frecuencias tan diferentes o más que las obtenidas de la muestra respecto a la distribución uniforme de frecuencias. Si la probabilidad es suficientemente baja, entonces la hipótesis nula puede ser rechazada.

Para la frecuencia esperada se tiene que:

La probabilidad de obtener un “1” en un lanzamiento es 1/6 y en 36 lanzamientos sería 6.
Frecuencia esperada, es invariante: (1/6)(36) = 6.

E = Frecuencia Esperada
O = Frecuencia Observada


La distribución muestral se comporta como una Chi Cuadrada con n – 1 grados de libertad.

df = 5
Chi Cuadrada = 5,333
Probabilidad = ?



La siguiente tabla muestra los resultados observados y esperados en una prueba de admisión.

En resultados se aprecian algunos intervalos de puntajes obtenidos.

Proporciones de la distribución normal para cada intervalo.

Las frecuencias esperadas se calculan multiplicando el número total de puntos observados, 105, por la proporción.

Ho: Los datos se distribuyen en forma normal.

 

Con una probabilidad del 0,001%, entonces la hipótesis nula que asegura que los datos se distribuyen en forma normal debe ser rechazada. 30,09 > 16,27.


De acuerdo con el Ministerio de Salud, en cierta ciudad, los estudios históricos realizados muestran los siguientes porcentajes en cada grupo sanguíneo.

Formulación de hipótesis:

Ho: Los datos corresponde a la distribución histórica de los grupos sanguíneos de la población. (Distribución teórica).
H1: Los datos no se ajustan a la distribución teórica.

Tablas de frecuencias:

Nivel de significancia de contraste: a = 0,01
df = (4 – 1) = 3
Chi Cuadrada = 6,7371
Probabilidad = ?


Al comparar el valor estadístico de Chi Cuadrado: 6,7371 con el valor de la tabla: 11,345, se concluye que 6,7371 estaría a la izquierda de 11,345, por tanto la probabilidad de valores mayores a él es superior al nivel de significación a = 0,01.


Se encuestaron a 150 familias en un barrio de la ciudad, sobre el número de televisores que tienen en la vivienda.

Ho: X sigue la distribución uniforme de 0 a 4

H1: X no sigue la distribución uniforme de 0 a 4


Como el valor P > 0,05 entonces se acepta Ho.

Se lanza una moneda hasta obtener dos caras. Probar la hipótesis, al nivel de significancia del 5%. Sea X el número de lanzamientos. Al repetir el experimento 128 veces se obtienen los siguientes resultados:




Como las frecuencias esperadas deben ser mayores a 5, se fusionan las clases del 8 en adelante:


2,04587 < 12,5916, entonces se acepta la distribución de X, 
al no existir evidencia significativa en su contra.

Un producto con distribución normal tiene una desviación estándar de 0,9.

Una muestra aleatoria de 10 productos tiene una desviación estándar de 1,2.

Con un nivel de significancia de 5%, probar la hipótesis que la desviación estándar poblacional es mayor a la especificada.



En una muestra aleatoria normal se tomaron los siguientes resultados: 41.9, 45.2, 45.8, 45.8, 45.9, 46.0, 46.1, 46.1, 46.4, 47.0. Con un nivel de significancia de 95%, calcular un intervalo de confianza para la varianza.












0 Comentarios