Estadísticas - Prueba de Kolmogorov Smirnov

Esta prueba se utiliza en situaciones en las que se debe hacer una comparación entre una distribución de muestra observada y una distribución teórica.

Prueba de muestra de KS One

Esta prueba se usa como prueba de bondad de ajuste y es ideal cuando el tamaño de la muestra es pequeño. Compara la función de distribución acumulativa para una variable con una distribución especificada. La hipótesis null supone que no hay diferencia entre la distribución observada y teórica y el valor del estadístico de prueba 'D' se calcula como:

Fórmula

$ D = Máximo | F_o (X) -F_r (X) | $

Donde -

  • $ {F_o (X)} $ = Distribución de frecuencia acumulada observada de una muestra aleatoria de n observaciones.

  • y $ {F_o (X) = \ frac {k} {n}} $ = (número de observaciones ≤ X) / (número total de observaciones).

  • $ {F_r (X)} $ = La distribución de frecuencia teórica.

El valor crítico de $ {D} $ se encuentra en los valores de la tabla KS para una prueba de muestra.

Criterios de aceptación: si el valor calculado es menor que el valor crítico, acepte la hipótesis null .

Criterios de rechazo: si el valor calculado es mayor que el valor de la tabla, rechace la hipótesis null .

Ejemplo

Planteamiento del problema:

En un estudio realizado en varias corrientes de una universidad, se entrevistó a 60 estudiantes, con el mismo número de estudiantes extraídos de cada corriente, y se notó su intención de unirse al Drama Club de la universidad.

B.Sc. licenciado en Letras B.Com MAMÁ M.Com
No. en cada clase 5 5 9 9 11 dieciséis 19

Se esperaba que 12 estudiantes de cada clase se unieran al Drama Club. Usando la prueba KS para encontrar si hay alguna diferencia entre las clases de estudiantes con respecto a su intención de unirse al Drama Club.

Solución:

$ {H_o} $: No hay diferencia entre los estudiantes de diferentes transmisiones con respecto a su intención de unirse al club de teatro.

Desarrollamos las frecuencias acumulativas para distribuciones teóricas y observadas.

Corrientes No. de estudiantes interesados en unirse $ {F_O (X)} $ $ {F_T (X)} $ $ {| F_O (X) -F_T (X) |} $
Observado
(O)
Teórico
(T)
B.Sc. 5 5 12 5/60 12/60 7/60
licenciado en Letras 9 9 12 14/60 24/60 10/60
B.COM. 11 12 25/60 36/60 11/60
MAMÁ dieciséis 12 41/60 48/60 7/60
M.COM. 19 12 60/40 60/60 60/60
Total n = 60

La estadística de prueba $ {| D |} $ se calcula como:

$ D = Máximo {| F_0 (X) -F_T (X) |} \\ [7pt] \, = \ frac {11} {60} \\ [7pt] \, = 0.183 $

El valor de la tabla de D al nivel de significancia del 5% viene dado por

$ {D_0.05 = \ frac {1.36} {\ sqrt {n}}} \\ [7pt] \, = \ frac {1.36} {\ sqrt {60}} \\ [7pt] \, = 0.175 $

Dado que el valor calculado es mayor que el valor crítico, por lo tanto, rechazamos la hipótesis null y concluimos que existe una diferencia entre los estudiantes de diferentes corrientes en su intención de unirse al Club.

Prueba de dos muestras de KS

Cuando en lugar de uno, hay dos muestras independientes, entonces se puede usar la prueba KS de dos muestras para probar el acuerdo entre dos distribuciones acumulativas. La hipótesis null establece que no hay diferencia entre las dos distribuciones. El estadístico D se calcula de la misma manera que la prueba de muestra KS One.

Fórmula

$ {D = Máximo | {F_n} _1 (X) - {F_n} _2 (X) |} $

Donde -

  • $ {n_1} $ = Observaciones de la primera muestra.

  • $ {n_2} $ = Observaciones de la segunda muestra.

Se ha visto que cuando las distribuciones acumulativas muestran una gran desviación máxima $ {| D |} $, esto indica una diferencia entre las dos distribuciones de muestra.

El valor crítico de D para muestras donde $ {n_1 = n_2} $ y es ≤ 40, se usa la tabla KS para dos casos de muestra. Cuando $ {n_1} $ y / o $ {n_2} $> 40, se debe usar la tabla KS para muestras grandes de dos muestras de prueba. La hipótesis null se acepta si el valor calculado es menor que el valor de la tabla y viceversa.

Por lo tanto, el uso de cualquiera de estas pruebas no paramétricas ayuda al investigador a evaluar la importancia de sus resultados cuando las características de la población objetivo son desconocidas o no se han hecho suposiciones al respecto.