ESTADÍSTICA INFERENCIAL

En resumen, la Estadística Descriptiva es cuando los resultados del análisis no pretenden ir más allá del conjunto de datos, y la Estadística Inferencial cuando el objetivo del estudio es generalizar a toda una población desde los resultados obtenidos de una muestra de datos.

El principal interés de la Estadística Inferencial radica en encontrar algo relacionado con una población a partir de una muestra de ella.

El DANE informa que Colombia ocupa el puesto 28 del ranking de 196 estados con un número de habitantes significativos. La población en los últimos cinco años es: 48.203.000 en 2015, 48.748.000 en 2016, 49.292.000 en 2017, 49.834.000 en 2018 y 50.374.000 en 2019. (ESTADÍSTICA DESCRIPTIVA).

Una encuesta mostró que sólo el 46% de los estudiantes de undécimo grado podían resolver problemas que incluyeran fraccionarios, decimales y porcentajes. Además, sólo el 77% de los estudiantes de undécimo grado pudo sumar correctamente el costo de hamburguesas, papas fritas y gaseosas, que figuraban en el menú de un restaurante. (ESTADÍSTICA INFERENCIAL).

El muestreo aleatorio simple es aquel en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra.

El muestreo aleatorio estratificado trata de obtener una muestra proporcional representativa de cada uno de los estratos de la población.

::::::::::::::::::::::::::::

La Estadística Inferencial tiene como objetivo generalizar los resultados de un subconjunto de datos a todo el conjunto.

Población: conjunto de datos que se desea estudiar. Estos datos deben verse como valores de una misma variable, la cual se utiliza para designar la población.

Muestra: subconjunto de datos que se seleccionan de la población.

Si la muestra = población, la generalización o estudio se le llama CENSO y es exacta.

Muestra Aleatoria: una muestra aleatoria de tamaño n está formada por n de estas variables (X₁, X₂, X₃,... X_n). Todas siguen la misma distribución y son mutuamente independientes.

Parámetro: es la característica de la población que se desea estudiar y se convierte en el valor numérico que se le asigna a la población.

La variancia sesgada o varianza poblacional, refleja a la perfección el significado de una medida de dispersión como un promedio de los cuadrados de las desviaciones y tiene una gran aplicación en el estudio de las probabilidades.

La variancia insesgada, varianza muestral o cuasivarianza, es más propicia en los cálculos estadísticos y se usa en las muestras.

Cuando el tamaño de la muestra es grande, (n – 1) será aproximadamente igual a n, por lo que este denominador tiene un impacto real en el cálculo de la varianza para muestras pequeñas.

Estadístico o estimador: variable aleatoria que asigna un valor (estimación) a cada muestra de tamaño fijo.

Grados de libertad de la varianza y desviación típica: para la varianza muestral se divide entre n − 1, en vez de n. La razón es que la suma de las desviaciones xi − x¯ es siempre cero. Solamente n − 1 de las desviaciones al cuadrado pueden variar libremente.

:::::::::::::::::::::::

Ejercicio. En un estudio de dietética se tomaron los niveles metabólicos en siete personas y los datos fueron: 1.439, 1.362, 1.792, 1.614, 1.460, 1.666, 1.867.

Ejercicio. Los salarios por hora (en miles de pesos) de una muestra de empleados de una empresa X son: 12, 16, 18, 19, 20.

Ejercicio. Se tiene los datos de un subsidio, en miles de pesos, otorgado a 40 familias en una vereda.

Ejercicio. Se tabla muestra los datos de las estaturas de 22 personas.

Ejercicio. Se tiene los datos de un subsidio en miles de pesos otorgado a 40 familias en una vereda.

GRAFICAR LA FUNCIÓN DE DENSIDAD EN UNA DISTRIBUCIÓN NORMAL

(Campana de Gauss)

Variabilidad o dispersión: hace referencia al grado de variación que hay en un conjunto de puntuaciones.

a) las puntuaciones están muy próximas entre sí y concentradas en torno a la media aritmética, por lo que parece que existe poca dispersión en los datos.

b) las puntuaciones están más alejadas entre sí y no están tan concentradas alrededor de la media, existiendo mayor variabilidad.

Cuanto menor es la variabilidad en una distribución, más homogénea es la muestra de sujetos en la variable que se está midiendo.

Cuando existe más o menos dispersión en los datos, la muestra es más o menos heterogénea y las puntuaciones difieren entre sí.

Si hay máxima homogeneidad, todos los valores de la variable serían iguales entre sí y a la media y no habría variabilidad en los datos.

Coeficiente de Variación: la comparación del grado de variabilidad o dispersión entre dos conjuntos de puntuaciones en una misma unidad, se expresa en porcentajes.

Ejercicio. Una distribución tiene como media = 6,12 y una varianza de 1,61; y en otra, tiene como media = 102 y una varianza de 16. ¿Cuál de las dos distribuciones presenta mayor dispersión?.

El porcentaje de variación de la primera distribución es del 20,75%, mientras que el de la segunda distribución es del 3,92%. Por lo tanto, el grado de dispersión de los datos es mayor en el primer grupo, siendo el segundo grupo más homogéneo.

La mayor dispersión corresponderá al valor del coeficiente de variación mayor.

La distribución normal es un modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria continua a una situación ideal.

La distribución normal adapta una variable aleatoria continua a una función que depende de la media y la desviación típica. La función y la variable aleatoria tendrán la misma representación pero con ligeras diferencias.

La distribución normal es una distribución con forma de campana donde las desviaciones estándar sucesivas con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los datos. Estos valores de referencia son la base de muchas pruebas de hipótesis, como las pruebas Z y t.

La distribución normal es la distribución de probabilidades más importante para las variables aleatorias continuas. Karl Gauss (matemático y astrónomo, s. XVIII) contribuyó a la formación de los fundamentos teóricos que la sustentan: CAMPANA DE GAUSS.

Una variable aleatoria continua puede tomar cualquier número real: las rentabilidades de las acciones, los resultados de un parcial, el coeficiente de inteligencia IQ y los errores estándar.

Una variable aleatoria discreta toma valores enteros: el número de estudiantes en una asignatura.

Fórmula de la distribución normal

Dada una variable aleatoria X, decimos que la frecuencia de sus observaciones puede aproximarse satisfactoriamente (representar) a una distribución normal tal que: X ~ N(µ, s) (Variable aleatoria X aproximada a una distribución normal).

Media o valor central = µ

Desviación típica = s

Representación

Función de densidad de probabilidad de una variable aleatoria que sigue una distribución normal.

CURVA DE DENSIDAD: Es una curva que se halla siempre en el eje de las abscisas o por encima de él, y se define por debajo un área exactamente igual a 1.

Una curva de densidad describe el aspecto general de una distribución. El área por debajo de la curva, y entre cualquier intervalo de valores, es la proporción de todas las observaciones que están situadas en dicho intervalo.

Propiedades

• Es una distribución simétrica. El valor de la media, la mediana y la moda coinciden, están ubicadas en el centro de la distribución

• Distribución unimodal. Los valores que son más frecuentes o que tienen más probabilidad de aparecer están alrededor de la media. En otras palabras, cuando nos alejamos de la media, la probabilidad de aparición de los valores y su frecuencia descienden.

• Ambos lados (colas) de la distribución normal de probabilidades, se extienden indefinidamente y son asintóticos al eje horizontal (nunca tocan el eje horizontal).

Tres curvas diferentes normales con desviación estándar (s) iguales, y medias (µ) diferentes:

Tres curvas diferentes normales con desviación estándar (s) diferentes, y medias (µ) iguales:

Tres curvas diferentes normales con desviación estándar (s) diferentes, y medias (µ) diferentes:

Ejercicio: un grupo de 1500 personas, tiene una distribución normal con la media (µ) = 65 kg y una desviación estándar (s) = 8 kg.

X tiene una distribución (X ~ N(µ, s)) de: N(65;8)

(1). Se selecciona al azar una persona, hay una probabilidad aproximada de 68% que su peso esté entre 57 y 73 kg. Los límites del intervalo son: µ ± 1s

57 = µ – 1s 1s = µ – 57 s = 65 – 1 (8)

73 = µ + 1s 1s = 73 – µ s = 65 + 1 (8)

(2). Se selecciona al azar una persona, hay una probabilidad aproximada de 95%

que su peso esté entre 49 y 81 kg. Los límites del intervalo son: µ ± 2s

49 = µ – 2s 2s = µ – 49 2s = 65 – 2 (8)

81 = µ + 2s 2s = 81 – µ 2s = 65 + 2 (8)

(3). Se selecciona al azar una persona, hay una probabilidad aproximada de 99,7%

que su peso esté entre 41 y 89 kg. Los límites del intervalo son: µ ± 3s

41 = µ – 3s 3s = µ – 41 3s = 65 – 3 (8)

89 = µ + 3s 3s = 89 – µ 3s = 65 + 3 (8)

Aunque existen diversas curvas normales, todas ellas tienen propiedades comunes, como la regla empírica: REGLA DEL 68, 95, 99.7%.

El 68% de todas las observaciones se encuentran dentro del intervalo µ ± s

El 95% de todas las observaciones se encuentran dentro del intervalo µ ± 2s

El 99.7% de todas las observaciones se encuentran dentro del intervalo µ ± 3s

DISTRIBUCIÓN NORMAL ESTANDARIZADA

Si x es una observación de una distribución de media µ y desviación típica σ, el valor estandarizado de x es:

Los valores estandarizados se llaman a menudo valores z.

Un valor z nos dice a cuántas desviaciones típicas se encuentra la observación original de la media y en qué dirección. Las observaciones mayores que la media son positivas y las menores, negativas.

Ejercicios: La distribución de las estaturas de las jóvenes es aproximadamente normal con µ = 1,64 m y σ = 0,06 m.

La altura estandarizada es:

Si tiene una estatura de 1,75 m de altura, entonces tiene una altura estandarizada de:

Si tiene una estatura de 1,53 m de altura, entonces tiene una altura estandarizada de:

¿Qué proporción de todas los jóvenes miden menos de 1,75 m? Esta proporción es el área por debajo de la N(1,64, 0,06) situada a la izquierda de 1,75.

Si tiene una estatura de 1,75 m de altura, entonces tiene una altura estandarizada de:

Esta área es la misma que el área por debajo de la curva normal estandarizada situada a la izquierda de z = 1,83.

z = 1,83 y el área 0,9664.

La proporción de jóvenes que miden menos de 1,75 m es 0,9664 (cerca del 97%).

Ejercicio: El nivel alto de colesterol en la sangre puede aumentar el riesgo de enfermedades coronarias. Los niveles de colesterol superiores a 240 mg/dl exigen atención médica.

En una gran población de gente de la misma edad y sexo, la distribución del nivel de colesterol es aproximadamente normal.

Para jóvenes de 14 años, la media es µ = 170 miligramos de colesterol por decilitro de sangre (mg/dl) y la desviación típica es σ = 30 mg/dl.

¿Qué porcentaje de los jóvenes de 14 años tienen más de 240 mg/dl de colesterol?

(a). Planteamiento: La variable x es el nivel de colesterol en la sangre. La variable x tiene una distribución N(170, 30). Se calcula la proporción de jóvenes con x > 240.

(b). Estandarización: Resta la media, luego divide por la desviación típica, para convertir x en una z normal estandarizada:

c). Tabulación: En la tabla A se tiene que la proporción de observaciones menores que 2,33 es 0,9901.

Cerca del 99% de los jóvenes tienen niveles de colesterol menores que 240. El área situada a la derecha de 2,33 es, por tanto, 1 − 0,9901 = 0,0099. Este área es aproximadamente 0,01, o un 1%. Sólo un 1% de los jóvenes tienen niveles de colesterol tan altos.

¿Qué porcentaje de los jóvenes de 14 años tienen un nivel de colesterol entre de 170 y 240 mg/dl de colesterol?

Ejercicio. Se tiene una población donde la desviación típica de la altura es 20 cm.

a). En una muestra aleatoria simple de 500 individuos se ha obtenido una altura media (muestral) de 174 cm. Hallar el intervalo de confianza al 95% para µ (población).

Intervalo de confianza: es el área que encierran dos valores simétricos entre –z_a_/2 a z_a_/2

Como en la tabla A (del estadístico Z) no se pueden encontrar dos valores que encierren el 95%, entonces buscamos en esta z_a_/2que deje a su izquierda el 97,5% (2,5% + 95%).

b). ¿Cuál debe ser el tamaño mínimo de la muestra para que el correspondiente intervalo de confianza para µ al 90%, tenga de amplitud 5 cm?

Ejercicio. En una población se tiene que la estatura media es de 167 cm y la desviación típica es 3,2 cm. Se toma una muestra de 10 personas. Calcular la probabilidad que la media muestral sea menor de 165 cm.

Ejercicio. Una muestra aleatoria que sigue una distribución normal de media 180 y la desviación estándar de 300.

Se toma una muestra aleatoria de 10. Calcular la probabilidad que la media muestral sea menor a 160.

Ejercicio. Una muestra aleatoria que sigue una distribución normal de media 12 y la varianza de 16.

Se toma una muestra aleatoria de 9. Calcular la probabilidad que la media muestral sea superior a 14.

R E S U M E N

:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

La distribución normal es útil para generar algunos valores de una determinada variable normal para ejemplificar un resultado.

Variables aleatorias mutuamente independientes: X1, X2,… Xn ~ N(0,1):

Suma muestral (Sn):

Sn = X1 + X2 + X3 + … Xn ~ N(0,1):

Valores aproximados de la variable Z ~ N(0,1), se pasa a normal estándar la distribución aproximada de Sn:

Ejercicio. Generar cinco valores de la variable normal estándar Z, si n = 40.

Para generar valores aproximados de una variable normal no estándar X ~ N(µ, s²), para n ≥ 30

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

También se conoce como distribución ji cuadrado o distribución de Pearson. (Pearson K, 1900).

Es una prueba no paramétrica que mide discrepancia entre una distribución de frecuencias observadas y esperadas.

Es una distribución de probabilidad de una variable aleatoria continua. Es un caso particular la distribución gamma.

n = grados de libertad (entero > 0)

También se puede obtener sumando los cuadrados de normales estándar N(0, 1):

La función de densidad es la misma de gamma:

A medida que aumentan sus grados de libertad se va aproximando a la distribución normal

Los valores que aparecen en la Tabla de la Normal Estándar son probabilidades.

Los valores que aparecen en la Tabla Chi Cuadrado son los valores de los percentiles de la distribución.

El valor correspondiente, de acuerdo con los grados de libertad se pueden buscar en la Tabla o por medio de un software estadístico (Minitab).

PROPIEDADES

Es asimétrica positiva

Reproductividad

Si se tienen dos chi cuadrado independientes con n y m grados de libertad, la suma es otra distribución chi cuadrado con parámetro n +m. (Es la misma propiedad de distribución gamma).

Para poder sumar dos distribución gamma, las dos gamma deben ser independiente pero con el mismo l. Así como en la chi cuadrado l = ½.

Convergencia

Cuando n es suficiente grande, la chi cuadrado converge a una normal que tiene de media igual a n y una varianza de 2n.

Se puede calcular chi cuadrado, conociendo la varianza poblacional: s²

n – 1 = grados de libertad

CAMPOS DE VARIACIÓN

Posibles valores que puede tomar la variable aleatoria continua:

es porque al elevar al cuadrado no puede quedar negativo. Entonces la suma de todos ellos debe ser mayor o igual a cero:

Ejemplo: hallar la probabilidad que chi cuadrado con dos grados de libertad sea mayor o igual que 6, menor o igual que 3 y menor o igual que -1.

FUNCIÓN DENSIDAD DE PROBABILIDAD f(x)

Es la que permite calcular la probabilidad

Propiedades:

Para evitar usar la integral, entonces se emplea la tabla de chi cuadrado:

La primera gráfica es asimétrica, pero en la medida en que aumenta el número de grado de libertad (n) la distribución de chi cuadrado tiende a ser una distribución normal.

Ejercicio. Los tiempos requeridos de cierto transporte distrital para alcanzar uno de sus destinos forman una distribución normal con una desviación estándar de s = 1 hora. Si se elige al azar una muestra de 17 tiempos, hallar la probabilidad de que la varianza muestral sea > 2.

Ejercicio. Una población con distribución aproximadamente normal tiene una varianza de 0,8. Calcular la probabilidad que una muestra aleatoria n = 6 tenga una varianza mayor o igual a 1,2.

:::::::::::::::::::::::::::::::::::::::::::::::::::::::

Es el seudónimo que el descubridor (matemático W.S Gosset (1908)) publicó del resultado.

Es el cociente de una N(0,1) dividido entre la raíz de la chi cuadrado entre los grados de libertad (n).

Z no tiene parámetros, es fijo, la media es 0 y la varianza es 1.

La chi cuadrado como es la suma de los cuadrados de las normales estándar, toma solo valores del 0 al +¥.

Como la Z normal estándar toma valores de ¥ a +¥, en la t Student toma valores de ¥ a +¥.

La gráfica de la función de densidad se parece a la gráfica de distribución Normal estándar, es simétrica con respecto al cero, pero tiene las “colas más pesadas”, tiene más área o más probabilidad en las colas que en la distribución normal.

T Student se caracteriza por un parámetro denominado grados de libertad (df), siendo df > 2.

En la práctica df = n – 1, donde n es el tamaño de la muestra que se esté analizando.

PROPIEDADES

Es simétrica positiva, unimodal y con colas más pesadas que la N(0, 1).

La esperanza es igual a cero, para cualquier n > 1

La tn está tabulada para percentiles.

No posee la propiedad de reproductividad

Convergencia

Cuando n es suficiente grande la gráfica de tn se parece a la gráfica de distribución normal

FUNCIÓN DENSIDAD DE T STUDENT

Para muestras ≥ 30 casos, se usa la Distribución Normal. Sin embargo, para muestra menores a 30, se usa la teoría de muestreo pequeño, que está relacionada con la distribución Chi-Cuadrado, t de Student o la distribución F.

En la distribución normal N(µ, s) se conoce s, el tamaño de la muestra (≥ 30) y se sabe que es distribución normal.

En la distribución t Student, no se conoce s y el tamaño de la muestra es menor que 30 casos, sin saber si la distribución muestreada es normal o no.

La distribución t Student es caracterizada por el número de grados de libertad (v). Es similar a la distribución de z normal, con media igual a cero y es simétrica en forma de campana. Su forma depende en el tamaño de la muestra.

Ejercicio. Una población con distribución aproximadamente normal tiene una media especificada de 5,5, siendo su varianza desconocida. Calcular la probabilidad que una muestra aleatoria de tamaño 6 tenga una media mayor o igual a 6,5 con una desviación estándar de 0,5.

Ejercicio. Se tiene una caja con tarjetas, cada una con un número. Para la población se tiene µ = 10 y s = 4. Calcular el valor del estadístico t, aunque no se conozca la desviación típica de la muestra.

Datos de la muestra (n = 9): 4, 13, 8, 12, 8, 15, 14, 7, 8.

Ejercicio. Se tiene los resultados de 15 pacientes que fueron expuestos a un examen de índice sensorial de acupuntura: 8.6; 9.4; 7.9; 6.8; 8.3; 7.3; 9.2; 9.6; 8.7; 11.4; 10.3; 5.4; 8.1; 5.5; 6.9. Utilice los datos para construir un intervalo de confianza del 95% para la tasa sensorial media de la población, utilizando las tablas del estadístico t.

::::::::::::::::::::::::::::::::::::::::::::::::::::

:::::::::::::::::::::::::::::::::::::::::::::::::::

La distribución F de Fisher es Snedecor

Se emplea para el contraste de hipótesis (análisis de varianza)

La distribución F es asimétrica, positiva, nunca toma valores menores que 0.

v1 y v2 son grados de libertad, el valor de F que acumula un área a la izquierda de a%.

El valor dado en las tablas de Distribución F, el valor de a es mayor a 0,9 y los valores de f son mayores a 1.

Propiedad recíproca

Si X es una variable con distribución F con v1 y v2 grados de libertad, entonces la variable Y = 1/x

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Ejercicio. En una farmacia las órdenes para medicamentos, siguen una distribución exponencial, a un ritmo de una cada 20 segundos. Cuál es la probabilidad que la siguiente orden llegue:
a). En menos de 5 segundos
b). En más de 40 segundos

c) Entre 5 y 40 segundos
Ejercicio. Una empresa fabricante de fuentes de voltaje establece que el tiempo de falla sigue una distribución exponencial con una media de 4000 horas. ¿Cuál es el período de garantía en que sólo falla 5% de las fuentes de voltaje?

Ejercicio. U n componente electrónico tiene una vida media de servicio de 8 años. Si su vida útil se distribuye en forma exponencial, ¿cuál deber ser el tiempo de garantía que se debe otorgar, si se desea reemplazar a lo más el 15% de los componentes que fallen dentro de este período?

Ejercicio. Una bolsa de valores está en servicio durante 8 horas. El número de operaciones por hora es de 6.

La variable aleatoria x = tiempo entre dos órdenes de compra/venta de la acción observada.

¿Cuál la probabilidad que una orden arribe en los próximos 12 minutos, dado que acaba de ocurrir una orden?

P(x ≤ 0,2) (12 minutos = 0,2 horas)

¿Cuál la probabilidad que llegue una orden entre los próximos 6 y 12 minutos?

¿Cuál la probabilidad que una orden llegue después de los próximos 18 minutos?

Ejercicio. El tiempo útil de una marca de batería sigue un modelo exponencial con una media de fallas igual a 360 días.
a). ¿Qué probabilidad hay que el tiempo de falla sea menor que 400 días?. (Confiabilidad de la batería).

b). ¿Qué probabilidad hay que el tiempo de falla sea mayor que 360 días?

Ejercicio. La vida de cierto elemento electrónico que tiene una distribución exponencial con vida media de 500 horas. Si x representa la vida del elemento, calcular la probabilidad: a) que se deteriore antes de las 300 horas; b) que dure más de 300 horas.

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

R E S U M E N

:::::::::::::::::::::::::::::::::::::::::::::::::

El análisis multivariante es el conjunto de técnicas estadísticas que simultáneamente analizan múltiples resultados en los datos obtenidos en una investigación.

Todas las variables deben ser aleatorias y relacionadas de tal manera que el efecto que producen no se interpreten de manera individual.

Es más frecuente encontrar investigaciones de sólo una variable a medir.

Número de personas por familia; cantidad de motos en una ciudad; cantidad de hijos, etc.

Cuando dos variables se miden en una sola unidad experimental, los datos resultantes se denominan DATOS BIVARIADOS.

Las dos variables se pueden estudiar por separado, como también explorar la relación entre ellas.

Los métodos gráficos para datos bivariados, cualitativos o cuantitativos permiten estudiar las variables simultáneamente.

Cuando al menos una de las dos variables es cualitativa, se pueden usar gráficas circulares (tortas), gráficas de líneas y gráficas de barras para presentar y describir los datos.

Cuando se han medido en dos diferentes poblaciones o grupos, pueden usar dos gráficas circulares lado a lado o una gráfica de barras en la que las barras para las dos poblaciones se colocan una al lado de la otra, o gráfica de barras apiladas.

VARIABLES CUALITATIVAS

GRÁFICAS DE DISPERSIÓN PARA DOS VARIABLES CUANTITATIVAS

Cuando las dos variables que hayan de presentarse en una gráfica son cuantitativas, una de ellas se grafica a lo largo del eje horizontal y la otra a lo largo del eje vertical. Cada par de valores de datos se grafica como un solo punto.

Se tiene las respuestas de un estudio a seis familias sobre cantidad de personas y lo que gastan en alimentación por semana. Trazar la gráfica de dispersión.

x representa los miembros de una familia,

y son los costos semanales de alimentación

RELACIÓN LINEAL PARA DATOS CUANTITATIVOS BIVARIADOS

GRAFICAR:

Seleccionar los datos

Insertar dispersión

Clic en los puntos de dispersión

Agregar línea de tendencia

Presentar ecuación de la recta

R cuadrado (coeficiente de determinación)

ESTADÍSTICA BIVARIADA

DISTRIBUCIÓN DE MEDAS MUESTRALES

Se puede aplicar esta distribución cuando NO se conocen las varianzas poblacionales las cuales pueden ser por varianzas muestrales que sean mayores de 30: n1 + n2 > 30

Ejercicio. Se tienen dos poblaciones normales e independientes, donde la media de la segunda población es 0,65 menor que la de la primera; si se seleccionan muestras de tamaño 100 y 120 y las respectivas desviaciones típicas poblacionales son 12 y 8, se pide determinar la probabilidad si la diferencia entre ambas medias muestrales es superior a 1.

ERROR ESTÁNDAR

Cuando se tienen dos poblaciones, es necesario distinguir sus varianzas y tamaños de muestras. El error de distribución es la desviación estándar de la misma:

Si los tamaños de las muestras y las varianzas de las poblaciones son iguales:

Ejercicio. Existen dos especies de plantas, con alturas promedios de 32 y 22 cm y varianzas de 60 cm y 70 cm respectivamente. Para la primera variedad se toma una muestra de 10 plantas y para la segunda una muestra de 14 plantas.

¿Cuál es la probabilidad que la media de la muestra de la variedad 1 exceda a la variedad 2, en cinco o más unidades de altura?.

Ejercicio. En un estudio de “pesos” de estudiantes de quinto primaria se tomó una muestra de 20 niños y 25 niñas, siguiendo una distribución normal.

Para el caso de los niños, la media de los pesos está en 45 kg y una desviación estándar de 6 kg, mientras que para las niñas la media de los pesos es 38 kg y la desviación estándar en 5 kg.

¿Cuál es la probabilidad que el promedio de los pesos de los 20 niños sea al menos 9 kg más que el de las 25 niñas?.

(x₁) = promedio de los pesos de 20 niños

(x₂) = promedio de los pesos de 25 niños

Ejercicio. La vida útil de un producto electrónico A tiene como promedio 7,2 años con una desviación estándar de 0,8 años, mientras que un producto B tiene como promedio 6,7 años con una desviación estándar de 0,7 años.

¿Cuál es la probabilidad que una muestra aleatoria de 34 elementos del producto A tenga una vida promedio de al menos un años más que la de una muestra aleatoria de 40 elementos del producto B?.

(x₁) = promedio de 34 elementos producto A

(x₂) = promedio de 40 elementos producto B

:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

HIPÓTESIS NULAS:

Expresa ausencia de relación, diferencia, causalidad, etc., entre dos o más variables. Se formula para ser contrastada con la realidad a partir de la información obtenida del problema, refutan o niegan.

Ho: Las ofertas de programas profesionales en la Universidad Z, no satisface la demanda de formación académica.

Ho: Las TIC no representan una ventaja preponderante en los estudiantes de pregrado que requieren de las prácticas para complementar lo teórico.

Ho: No hay relación entre la autoestima y el temor al éxito. (Hipótesis nula respecto de una correlación).

Ho: La percepción de la similitud en religión, valores y creencias no provoca mayor atracción. (Hipótesis nula que niega la relación causal).

HIPÓTESIS DE INVESTIGACIÓN:

Se expresa como una aseveración, conjetura o proposición sobre las probables relaciones entre dos o más variables.

HIPÓTESIS DESCRIPTIVA:

Describe una situación relacional entre las variables que se someten a estudio.

La ansiedad en las personas bebedoras de licor se elevará en esta época de pandemia.

HIPÓTESIS CORRELACIONAL:

Expresa una posible asociación o relación entre dos o más variables, sin que importe en orden de presentación de las variables.

A mayor autoestima, habrá menor el temor al éxito. (una variable aumenta, la otra disminuye, o viceversa).

Quienes logran puntajes altos en la asignatura de matemáticas tienden a alcanzar los puntajes más altos en la asignatura de estadística.

HIPÓTESIS ESTADÍSTICAS:

Se expresa en términos de símbolos estadísticos o ecuación matemática que identifique vínculos estadísticos.

HIPÓTESIS DE ESTIMACIÓN:

Evalúan la suposición respecto al valor de alguna característica de una muestra de individuos o unidades de análisis.

Hi: la media > 2000 (la media de ingresos mensuales es mayor a U$2000)

Ho: la media = 2000 (la media de ingresos mensuales es igual a U$2000)

Ha: la media < 2000 (la media de ingresos mensuales es menor a U$2000)

HIPÓTESIS DE CORRELACIÓN:

Transforma una situación de correlación entre dos o más variables a la simbología estadística propia de las pruebas estadísticas de correlación.

Hi: rxy ¹ 0 (no es igual a cero, o ambas variables están correlacionadas)

Ho: rxy = 0 (las dos variables no están correlacionadas, su correlación es 0)

Hi: rxyz ¹ 0 (no es igual a cero, o las tres variables están correlacionadas)

Ho: rxyz = 0 (las tres variables no están correlacionadas, su correlación es 0)

HIPÓTESIS DE DIFERENCIA DE MEDIAS:

Compara una estadística entre dos o más grupos.

Hi: la media1 ¹ la media2 (el promedio del grupo uno es diferente al promedio del grupo 2).

Como no es factible recoger información sobre todas y cada una de las unidades de observación (individuos) de una población, en la investigación se diseña la recolección de datos respecto a un subconjunto o parte representativa de la población.

El tamaño de la muestra está condicionado por los objetivos de estudio, que determinarán su diseño, las variables a considerar y el método planteado.

Para una población infinita (si la población es igual a 100.000 o más unidades de observación).

Para una población finita

M = tamaño de la población

Una corporación desea determinar el promedio de sus clientes en sus cuentas de ahorros. La desviación estándar de las cuentas es estimada por la corporación en $40.000.

a). Cuál es el tamaño de la muestra, donde el error de estimación no exceda en $20.000.

b). Cuál es el tamaño de la muestra, donde el error de estimación no exceda en $40.000.

¿Cuántas observaciones debe constar las muestras si se requiere que dé resultados con una precisión de ±0,005 y con una confianza del 95%, si se conoce que tiene una desviación típica del 0,0068?

En una distribución normal de la población con una desviación de 4, un error de estimación máximo de 2,5 un nivel de confianza del 95%, ¿qué tamaño debe tener la muestra?

Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza del 95%

Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza del 99%

¿A cuántas familias se tienen que seleccionar para conocer la preferencia del mercado en cuanto a las marcas de shampoo para bebé, si se desconoce la población total?

¿A cuántas familias se tienen que estudiar para conocer la preferencia del mercado en cuanto a las marcas de shampoo para bebé, si la población total es 15.000?

En una distribución normal de la población con una desviación de 3, un error de estimación de 1 segundo y un nivel de confianza del 95%, ¿cuál debe ser el tamaño de la muestra?. Si luego con esa muestra el investigador obtiene una media de 4 segundos, ¿cuál es el intervalo de confianza?

En una distribución normal de la población con una desviación poblacional desconocida, un error de estimación máximo de 5 unidades y un nivel de confianza del 99%. Si luego con una muestra de 13, el investigador obtiene una media de 25 unidades y una desviación típica de 6 unidades, ¿cuál es el intervalo de confianza?

::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

PRUEBA DE HIPÓTESIS: Procedimiento basado en evidencia de la muestra y la teoría de la probabilidad para determinan si la hipótesis es una afirmación razonable.

La prueba de hipótesis comienza con una afirmación, o suposición, sobre un parámetro de la población, como es la media poblacional.

1. Planteamiento de hipótesis

Ho: hipótesis nula. Afirmación (o enunciado) acerca del valor de un parámetro.

Ho: µ = 500 (la media población es igual a 500)

H1: hipótesis alternativa. Afirmación que se aceptará si los datos muestrales proporcionan amplia evidencia que la hipótesis nula es falsa, es decir, si los resultados de una muestra no respaldan la hipótesis nula.

H1: µ ¹ 500 (la media población no es igual a 500)

2. Selección del Nivel de Significancia o de riesgo

Es la probabilidad de rechazar la hipótesis nula, cuando en realidad es verdadera. El nivel de significancia se denota con (a).

Dependiendo de la naturaleza de la hipótesis y del tamaño de la muestra, el tipo de distribución es diferente.

(a/2) representa el porcentaje del nivel de significancia o de riesgo, son las regiones donde se rechaza la hipótesis nula cuando es verdadera.

(1 – a) indica la probabilidad de aceptar la hipótesis nula.

(– Zo, Zo) identifican el valor del estadístico de prueba.

Cuando se rechaza la hipótesis nula, Ho, cuando en realidad debe aceptarse (Error Tipo I).

Cuando se acepta la hipótesis nula, Ho, cuando en realidad debe rechazarse (Error Tipo II).

3. Estadístico de Prueba

Se pueden utilizar z, chi, t o F como estadísticos de prueba. Con este valor determinado a partir de la información de la muestra, se decide si se rechaza la hipótesis nula.

4. Regla de decisión

Es un enunciado sobre las condiciones específicas en que se rechaza la hipótesis nula y aquellas en las que no se rechaza. La región o área de rechazo define la ubicación de todos esos valores que son tan grandes o pequeños que la probabilidad de que ocurran es una hipótesis nula verdaderamente es lejana.

El área en que se acepta la hipótesis nula se ubica a la izquierda de 1,65.

El área en que se rechaza la hipótesis nula se ubica a la derecha de 1,65.

Se aplica una prueba de una sola cola.

Nivel de significancia de 0,05.

El valor de 1,65 es el punto crítico que separa las regiones en que se acepta o rechaza la hipótesis nula.

5. Toma de decisiones

Al calcular el estadístico de la prueba, comparándolo con el valor crítico y tomar la decisión de aceptar o rechazar la hipótesis nula.

Suponiendo que, de acuerdo con la información de la muestra, se obtiene que z = 2,34, se rechaza la hipótesis nula, con un nivel de significancia de 0,05, porque 2,34 se localiza en la región de derecha, es decir está más allá que 1,65.

En caso que z = 0,71, la hipótesis nula no se rechaza.

:::::::::::::::::::::::::::::

En una muestra aleatoria de 100 productos se tiene una media de 71,8 con una desviación de 8,9. Con un nivel de significancia de 5%, probar la hipótesis que el promedio de todos los productos es mayor a 70.

Ho: µ < 70

H1: µ > 70

La producción semanal de cajas plásticas en una compañía sigue una distribución normal, con una media de 200 y una desviación estándar de 16. Nivel de significancia del 0,01.

La empresa adquirió tecnología de punta y más personal y pretende investigar si la producción semanal de cajas aumentó.

La cantidad media de cajas producidas el año anterior fue de 203,5, tomando como referencia 50 semanas.

Ho: la media de la población es 200. Ho: µ = 200

H1: la media es diferente de 200. H1: µ ¹ 200

La prueba es de dos colas, pues la hipótesis alternativa no indica dirección alguna. La mitad de 0,01 es 0,005 y se ubica en cada cola. Por tanto, el área que no se rechaza Ho, se ubica entre las dos colas, es 0,99.

Si z se ubica entre – 2,58 y +2,58, la hipótesis nula no se rechaza.

Si z no se encuentra entre – 2,58 y +2,58, la hipótesis alternativa se acepta.

VALOR P en la prueba de hipótesis:

La probabilidad, calculada suponiendo que Ho es cierta, de que el resultado tome un valor al menor tan extremo como el observado se denomina valor P de la prueba de significación.

Cuando se realiza la prueba de hipótesis, se compara el estadístico de la prueba con un valor crítico. Ejemplo: si el valor crítico es 1,96 y el valor calculado del estadístico de prueba es 2,19, la decisión sería rechazar Ho.

Cuanto menor sea el valor de P, más fuerte es la evidencia que proporcionan los datos en contra de Ho.

Si el valor de p es menor que el nivel de significancia, Ho se rechaza.

Si el valor de p es mayor que el nivel de significancia, Ho no se rechaza.

El valor de p en las dos colas es de 0,1212 = 2(0,0606).

El valor de p de 0,1212 es mayor que el nivel de significación de 0,01, entonces no se rechaza Ho.

Se realizan 50 pruebas a una variable física y se obtiene una media muestral de 9,9. Conociendo que el error en el método es de s = 0,4, ¿es el valor medio significativamente diferente al valor esperado de 9,8?

CONTRASTES BILATERALES Y UNILATERALES

En general, a un contraste de hipótesis en el que la región crítica se divide en dos partes se le denomina BILATERAL, y se dice que es una prueba de dos colas. Por lo general, el área de cada cola suele coincidir con la mitad del nivel de significación.

Algunas veces se quiere comprobar si un parámetro es mayor o menor que un determinado valor, si va en un sentido u otro. En este caso se denomina UNILATERAL y se realiza una prueba de una cola. El área de región crítica coincide con el nivel de significación.

De una población normal se toma una muestra de 64 observaciones. La desviación estándar de la población es 15 y tiene una media muestral de 220. Con un nivel de significancia de 3%, probar la hipótesis que el promedio de todas las observaciones es menor que 215. ¿Cuál es el valor del estadístico Z?

Ho: µ ≥ 215

H1: µ < 215

Una distribuidora agrícola ofrece un producto en sacos, cuyo peso promedio es de 100 libras, con una desviación de 2 libras. En una muestra de 9 sacos, el peso promedio es de 98 libras. Con un nivel de significancia de 5%, probar la hipótesis que el promedio de todos los sacos es igual a 100. ¿Cuál es el valor del estadístico Z?

Ho: µ ¹ 100

H1: µ = 100

Un estudio médico estableció que, en hombres de 35 y 44 años, la presión sistólica media de la sangre es 128 con una desviación típica a 15.

El departamento médico de una compañía halla que la presión sistólica media de una muestra de 72 empleados, entre edades de 34 y 44 años, es de media = 126,07.

Con un nivel de significancia de 5%, probar la hipótesis que la presión sistólica media de los empleados de la empresa es distinta que la media poblacional. Suponiendo que tienen la misma s = 15. ¿Cuál es el valor del estadístico Z?

Ho: µ = 128 (no hay diferencias con las medias)

H1: µ ¹ 128

La hipótesis alternativa es de dos colas, ya que no tiene dirección particular.

Cuando se conoce la desviación estándar de la población s, se aplica:

Y cuando no se conoce la desviación estándar de la población s, puede calcularse por medio de la desviación estándar de la muestra, s:

Ho: µ ≥ 200

H1: µ ≤ 200

En una muestra aleatoria normal se tomaron los siguientes resultados: 15, 17, 18, 20 y 23. Con un nivel de significancia de 10%, probar la hipótesis que la media de la población es igual a 18. (Utilice el estadístico t-student)

Ho: µ > 18

H1: µ < 18

Las dos poblaciones siguen distribuciones normales

Las dos muestras no deben estar relacionadas (independientes)

Se conoce la desviación estándar de las dos poblaciones

Conclusión: El valor de p en una cola es de 0,00087. Como el valor de p de 0,00087 es menor que el nivel de significación de 0,01, entonces se rechaza Ho.

Conclusión: El valor de p en una cola es de 0,27189. Como el valor de p de 0,27189 es mayor que el nivel de significación de 0,08, entonces no se rechaza Ho.

Las dos varianzas poblaciones son desconocidas.

Como las muestras son grandes, las varianzas muestrales lo son (una buena aproximación de las poblacionales).

La Chi Cuadrado permite comprobar si los datos observados difieren significativamente de los valores teóricos esperados.

Las pruebas Chi Cuadrado (pruebas no paramétricas) miden la discrepancia entre unos datos observados y otros esperados.

PRUEBAS: Pruebas de Bonda del Ajuste y Pruebas de Independencia.

La bondad de ajuste es una prueba que determina si existe evidencia significativa en contra de que una población se distribuye de cierto modo, utilizando la información dada por una muestra.

#E = Evento. Es un subconjunto del espacio muestral.

#U = Espacio Muestral. Es el conjunto de todos los posibles resultados que se pueden obtener al realizar el experimento. Es todo lo que puede ocurrir al realizar un experimento.

Se lanza un dado, qué probabilidad existe que el resultado sea impar.

U = {1, 2, 3, 4, 5, 6}

E = {1, 3, 5}

Para un dado legal, la probabilidad de obtener cualquiera de los seis resultados posibles en un lanzamiento es 1/6.

Ho: El dado es legal.

La tabla dada muestra los resultados obtenidos al lanzar el dado 36 veces.

Una forma de probar si el dado es legal es realizando una prueba de significancia, calculando la probabilidad de obtener frecuencias tan diferentes o más que las obtenidas de la muestra respecto a la distribución uniforme de frecuencias. Si la probabilidad es suficientemente baja, entonces la hipótesis nula puede ser rechazada.

Para la frecuencia esperada se tiene que:

La probabilidad de obtener un “1” en un lanzamiento es 1/6 y en 36 lanzamientos sería 6.

Frecuencia esperada, es invariante:

E = Frecuencia Esperada

O = Frecuencia Observada

La distribución muestral se comporta como una Chi Cuadrada con n – 1 grados de libertad.

df = 5

Chi Cuadrada = 5,333

Probabilidad = ?

La siguiente tabla muestra los resultados observados y esperados en una prueba de admisión.

En resultados se aprecian algunos intervalos de puntajes obtenidos.

Proporciones de la distribución normal para cada intervalo.

Las frecuencias esperadas se calculan multiplicando el número total de puntos observados, 105, por la proporción.

Ho: Los datos se distribuyen en forma normal.

Con una probabilidad del 0,001%, entonces la hipótesis nula que asegura que los datos se distribuyen en forma normal debe ser rechazada. 30,09 > 21,11.

De acuerdo con el Ministerio de Salud, en cierta ciudad, los estudios históricos realizados muestran los siguientes porcentajes en cada grupo sanguíneo.

Formulación de hipótesis:

Ho: Los datos corresponde a la distribución histórica de los grupos sanguíneos de la población. (Distribución teórica).
H1: Los datos no se ajustan a la distribución teórica.

Tablas de frecuencias:

Nivel de significancia de contraste: a = 0,01

df = (4 – 1) = 3

Chi Cuadrada = 6,7371

Probabilidad = ?

Al comparar el valor estadístico de Chi Cuadrado: 6,7371 con el valor de la tabla: 11,345, se concluye que 6,7371 estaría a la izquierda de 11,345, por tanto la probabilidad de valores mayores a él es superior al nivel de significación a = 0,01.

Como el valor P > 0,01 entonces se acepta Ho

Se encuestaron a 150 familias en un barrio de la ciudad, sobre el número de televisores que tienen en la vivienda.

Ho: X sigue la distribución uniforme de 0 a 4

H1: X no sigue la distribución uniforme de 0 a 4

Como el valor P > 0,05 entonces se acepta Ho.

Se lanza el dado 600 veces y se obtiene lo siguiente:

Se lanza una moneda hasta obtener dos caras. Probar la hipótesis, al nivel de significancia del 5%. Sea X el número de lanzamientos. Al repetir el experimento 128 veces se obtienen los siguientes resultados:

Como las frecuencias esperadas deben ser mayores a 5, se fusionan las clases del 8 en adelante:

2,04587 < 12,5916, entonces se acepta la distribución de X,

al no existir evidencia significativa en su contra.

Un producto con distribución normal tiene una desviación estándar de 0,9.

Una muestra aleatoria de 10 productos tiene una desviación estándar de 1,2.

Con un nivel de significancia de 5%, probar la hipótesis que la desviación estándar poblacional es mayor a la especificada.

Un producto con distribución normal tiene una varianza poblacional de 15.

Una muestra aleatoria de 20 productos, tiene una varianza muestral de 18,2.

Con un nivel de significancia de 5%, probar la hipótesis que la desviación estándar poblacional es mayor a 15.

En una muestra aleatoria normal se tomaron los siguientes resultados: 41.9, 45.2, 45.8, 45.8, 45.9, 46.0, 46.1, 46.1, 46.4, 47.0. Con un nivel de significancia de 95%, calcular un intervalo de confianza para la varianza.

En un estudio se tomaron los niveles y los datos fueron: 14.39, 13.62, 17.92, 16.14, 14.60, 16.66, 18.67. Con un nivel de significancia de 90%, calcular un intervalo de confianza para la varianza y la desviación estándar.

En un estudio se tomaron los pesos de 10 niños de determinada edad y estos fueron los resultados: 14.5, 11.6, 12.8, 15.1, 14.2, 13.7, 12.9, 13.8, 14.1, 11.9. Con un nivel de significancia de 95%, calcular un intervalo de confianza para la desviación estándar.

En un estudio sobre el tratamiento de una determinada enfermedad se quiere estimar la proporción de pacientes que se curarían si se aplicará la medicina a todos ellos.

Se fija un intervalo de confianza del 95% y un error de estimación de 0,20. La muestra calculada es de 24 pacientes de los cuales 13 son curados. ¿Cuál es el intervalo de confianza?

Por lo general hay mayor interés en conocer la diferencia entre las medias (grupos independientes o diferentes) que un valor específico de ellas.

En un estudio sobre una nueva bebida gaseosa se obtuvo los siguientes datos:

La diferencia entre las medias muestrales (5,353 – 3,882) es de 1,471, pero se quiere establecer es la diferencia entre las medias poblacionales, para ello se parte de tres suposiciones:

(1). Las dos poblaciones tienen la misma varianza (homogeneidad de varianzas).

(2). Las poblaciones se distribuyen en forma normal.

(3). Cada dato se selecciona en forma independiente de cualquier otro.

En la prueba de una sola media, se tenía que:

En la prueba de dos medias:

Hipótesis nula Ho: µ1 – µ2 = do; donde do = diferencia nula.

El valor hipotético es 0, que es valor que indica la hipótesis nula, donde las diferencias entre las medias poblacionales es 0.

El estimador para el error estándar del estadístico se calcula como la diferencia entre medias en la población:

Si los tamaños de las muestras y las varianzas de las poblaciones son iguales:

Asumiendo que las varianzas poblacionales son iguales, entonces se estima esta varianza con el promedio de las varianzas muestrales.

Entonces el error estándar es:

Valor del estadístico t:

Los grados de libertad son el número de estimaciones independientes de la varianza.

(n1 – 1) + (n2 – 1)

16 + 16 = 32

La prueba de las dos colas se usa cuando la hipótesis nula puede ser rechazada sin considera la dirección del efecto. Es decir, la probabilidad de obtener un valor de t < – 2,533 o y t > 2,533.

En un estudio sobre la estatura de jóvenes se obtuvo los siguientes datos:

Si los datos siguen una distribución normal y con un nivel de significancia del 4%, probar la hipótesis nula que la media de estatura de los hombres excede en 3 cm a la media de la estatura de las mujeres. (Suponer que s1 = s2).

Ho: µh – µm > 3

En un estudio sobre la resistencia de cierto material, se enterraron 10 tiras de este, a las dos semanas se sacaron cinco de estas y a las 16 semanas las restantes cinco. La siguiente tabla muestra las fuerzas de roturas en kg:

A partir de estos datos siguen una distribución normal y con un nivel de significancia del 5%, probar la hipótesis.

Ho: µ1 = µ2

H1: µ1 > µ2

En un estudio de tiempos en dos procesos A y B se obtuvo los siguientes datos:

Si los datos siguen una distribución normal y con un nivel de significancia del 0,10, probar la hipótesis nula donde los tiempos medios son iguales.

Ho: µ1 = µ2

H1: µ1 ¹ µ2

Si los datos siguen una distribución normal y con un nivel de significancia del 0,10, probar la hipótesis nula donde los tiempos medios son iguales. Calcular el estadístico t.

Ho: µ1 = µ2

H1: µ1 ¹ µ2

Hay situaciones donde las muestras son dependientes o están relacionadas: muestra apareada.

PRUEBA T APAREADA

DESVIACIÓN ESTÁNDAR DE LAS DIFERENCIAS

Se comparan 10 vehículos de alta gama en dos concesionarios y los resultados son los siguientes:

A partir de estos datos siguen una distribución normal y con un nivel de significancia del 0,05, probar la hipótesis.

Ho: µd = 0

H1: µd ¹ 0

A partir de los datos que se tienen, siguiendo una distribución normal y con un nivel de significancia del 0,05, probar la hipótesis.

Ho: µd ≤ 0

H1: µd > 0

Un jugador de primer nivel en baloncesto dice que tiene un acierto en tiros libres del 90%. Para demostrarlo hace 100 lanzamientos y encesta sólo 85. ¿Su hipótesis es aceptada, para un nivel de significación a = 0,05?

Ho: p ≥ 0,90

H1: p < 0,90

En un estudio de sobrepeso en la cuidad A con una muestra de 100 personas, se obtiene que 34 tienen sobrepeso, mientras que en la ciudad B con una muestra de 200 personas, se obtiene que 50 tienen sobrepeso.

Ho: hay mayor proporción de personas con sobrepeso en la ciudad A, con respecto a la ciudad B.

p1: la proporción de personas con sobrepeso en la ciudad A

p2: la proporción de personas con sobrepeso en la ciudad B

Con un nivel de significancia de 0,08, hay evidencia que respalde Ho.

Ho: p1 – p2 > 0

En un estudio de dos poblaciones A y B con 61 y 62 personas cada una.

En la primera se tomaron 49 y de la segunda 38. (Confianza del 95%)

n1 = observaciones de la primera muestra

n2 = observaciones de la segunda muestra

P1 = proporción en la primera muestra

P2 = proporción en la segunda muestra

Pc = proporción conjunta que posee la característica en las muestras combinadas.

X1 = es el número que posee la característica en la primera muestra

X2 = es el número que posee la característica en la segunda muestra

En un estudio de dos poblaciones: mujeres jóvenes y mujeres adultas, donde se les preguntaba sobre la aceptación con un nuevo perfume en las tiendas de belleza. De una muestra aleatoria de 100 mujeres jóvenes, 19 expresaron la aceptación a este perfume. Y de la muestra de 200 mujeres adultas, a 62 les agrado el perfume.

Con un nivel de Confianza del 0,05, calcular el estadístico Z para una hipótesis nula que la proporción de mujeres jóvenes que comprarían el perfume es igual a la proporción de mujeres adultas que lo comprarían.

Ho: p1 = p2

H1: p1 ¹ p2

En un estudio de dos poblaciones: jóvenes y adultos, donde se les preguntaba sobre la aceptación con un nuevo producto deportivo. De una muestra aleatoria de 150 adultos, 87 expresaron la aceptación a este producto. Y de la muestra de 200 jóvenes, a 123 les agrado el perfume.

Con un nivel de Confianza del 0,10, calcular el estadístico Z para una hipótesis nula que la proporción de adultos que comprarían el producto es igual a la proporción de jóvenes que lo comprarían.

Ho: p1 = p2

H1: p1 ¹ p2

Si se tienen muestras aleatorias simples independientes de dos poblaciones normales, una muestra de tamaño n1 de una población N(µ1, s1) y una muestra de tamaño n2 de una población N(µ2, s2). Las medias y las desviaciones típicas son desconocidas.

La prueba F de dos muestras examina si las medias son iguales, para contrastar la hipótesis de la igualdad de las variaciones:

Las distribuciones F son una familia de distribuciones con dos parámetros. Estos parámetros son los grados de libertad de las varianzas muestrales que aparecen en el numerador y en el denominador del estadístico F.

Por convenio, la población 1 es la que tiene la varianza muestral observada mayor, se coloca en el numerador. Por tanto, F es siempre mayor o igual a 1. Así que el valor crítico de la cola derecha es el único que se requiere.

Con un nivel de Confianza del 0,10, calcular el estadístico F para una hipótesis nula de acuerdo a los datos que se tiene en la tabla.

Se quiere hacer un estudio sobre la venta de casa frente al mar comparado con la venta de casas en la tercera cuadra de esta.

Una muestra de 21 casas vendidas, el año anterior, con vistas al mar tiene una desviación estándar de $45.600.000.

Una muestra de 18 casas vendidas, el año anterior, a tres cuadras del mar tiene una desviación estándar de $21.330.000.

Con un nivel de Confianza del 0,01, calcular el estadístico F para probar la hipótesis nula.

El valor del estadístico F es:

Un uso de la distribución F es el análisis de la técnica de la varianza (ANOVA), en la cual se comparan tres o más medias poblacionales para determinar si son iguales.

Las poblaciones siguen una distribución normal

Las poblaciones tienen desviaciones estándares iguales (s)

Las poblaciones son independientes.

Se quiere contrastar la hipótesis nula:

Ho: µ1 = µ2 = µ3

H1: No es cierto que µ1, µ2, µ3 sean iguales

La hipótesis alternativa ya no es de una cola o dos colas, ahora admite muchas colas, ya que admite cualquier relación distinta a Ho.

El contraste de Ho en contra de H1 se denomina PRUEBA F DEL ANÁLISIS DE LA VARIANZA (ANOVA).

Si la hipótesis nula que las medias de todas las poblaciones son iguales es cierta, el estadístico F del ANOVA tiene una distribución de:

I – 1 grados de libertad en el numerador

N – I grados de libertad en el denominador

Los tamaños de las muestras son: n1 = 28; n2 = 28; n3 = 26. Por tanto I = 3. Las desviaciones estándar son: s1 = 0,841; s2 = 1,144; s3 = 1,566

N = 28 + 28 + 26 = 62

df numerador: df denominador:

I – 1 = 3 – 1 = 2 N – I = 62 – 3 = 59

Nota: los resultados de la prueba F del ANOVA son aproximadamente correctos cuando la desviación típica muestral más grande no es mayor que el doble de la desviación típica muestral más pequeña.

1,566 no es mayor que 1,682. [(2)(0,841)]

Si se emplea la distribución t para comparar cuatro medias poblacionales, tendría que efectuar seis pruebas t distintas, por esto ANOVA permite comparar las medias de tratamiento de forma simultánea y evitar la acumulación del error de tipo I.