Estadísticas - Regresión lineal

Una vez que se ha establecido el grado de relación entre las variables mediante el análisis de correlación, es natural profundizar en la naturaleza de la relación. El análisis de regresión ayuda a determinar la relación de causa y efecto entre variables. Es posible predecir el valor de otras variables (llamada variable dependiente) si los valores de las variables independientes se pueden predecir utilizando un método gráfico o el método algebraico.

Método gráfico

Implica dibujar un diagrama de dispersión con una variable independiente en el eje X y una variable dependiente en el eje Y. Después de eso, se dibuja una línea de tal manera que atraviesa la mayor parte de la distribución, con los puntos restantes distribuidos casi uniformemente a cada lado de la línea.

Una línea de regresión se conoce como la línea de mejor ajuste que resume el movimiento general de los datos. Muestra los mejores valores medios de una variable correspondiente a los valores medios de la otra. La línea de regresión se basa en el criterio de que es una línea recta que minimiza la suma de las desviaciones al cuadrado entre los valores predichos y observados de la variable dependiente.

Método algebraico

El método algebraico desarrolla dos ecuaciones de regresión de X en Y e Y en X.

Ecuación de regresión de Y en X

$ {Y = a + bX} $

Donde -

  • $ {Y} $ = variable dependiente

  • $ {X} $ = variable independiente

  • $ {a} $ = Constante que muestra la intersección en Y

  • $ {b} $ = Constante que muestra la pendiente de la línea

Los valores de ayb se obtienen mediante las siguientes ecuaciones normales:

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2} $

Donde -

  • $ {N} $ = Número de observaciones

Ecuación de regresión de X en Y

$ {X = a + bY} $

Donde -

  • $ {X} $ = variable dependiente

  • $ {Y} $ = variable independiente

  • $ {a} $ = Constante que muestra la intersección en Y

  • $ {b} $ = Constante que muestra la pendiente de la línea

Los valores de ayb se obtienen mediante las siguientes ecuaciones normales:

$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2} $

Donde -

  • $ {N} $ = Número de observaciones

Ejemplo

Planteamiento del problema:

Un investigador descubrió que existe una correlación entre las tendencias de peso de padre e hijo. Ahora está interesado en desarrollar ecuaciones de regresión en dos variables a partir de los datos dados:

Peso del padre (en Kg) 69 63 66 64 67 64 70 66 68 67 sesenta y cinco 71
Peso del hijo (en Kg) 70 sesenta y cinco 68 sesenta y cinco 69 66 68 sesenta y cinco 71 67 64 72

Desarrollar

  1. Ecuación de regresión de Y en X.

  2. Ecuación de regresión de en Y.

Solución:

$ {X} $ $ {X ^ 2} $ $ {Y} $ $ {Y ^ 2} $ $ {XY} $
69 4761 70 4900 4830
63 3969 sesenta y cinco 4225 4095
66 4356 68 4624 4488
64 4096 sesenta y cinco 4225 4160
67 4489 69 4761 4623
64 4096 66 4356 4224
70 4900 68 4624 4760
66 4356 sesenta y cinco 4225 4290
68 4624 71 5041 4828
67 4489 67 4489 4489
sesenta y cinco 4225 64 4096 4160
71 5041 72 5184 5112
$ {\ sum X = 800} $ $ {\ sum X ^ 2 = 53,402} $ $ {\ sum Y = 810} $ $ {\ sum Y ^ 2 = 54,750} $ $ {\ sum XY = 54,059} $

Ecuación de regresión de Y en X

Y = a + bX

Donde, ayb se obtienen por ecuaciones normales

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2 \\ [7pt] Donde \ \ sum Y = 810, \ sum X = 800 , \ sum X ^ 2 = 53,402 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Rightarrow} $ 810 = 12a + 800b ... (i)

$ {\ Rightarrow} $ 54049 = 800a + 53402 b ... (ii)

Multiplicando la ecuación (i) con 800 y la ecuación (ii) con 12, obtenemos:

96000 a + 640000 b = 648000 ... (iii)

96000 a + 640824 b = 648588 ... (iv)

Restando la ecuación (iv) de (iii)

-824 b = -588

$ {\ Rightarrow} $ b = -.0713

Sustituyendo el valor de b en la ec. (yo)

810 = 12a + 800 (-0.713)

810 = 12a + 570.4

12a = 239.6

$ {\ Rightarrow} $ a = 19.96

Por lo tanto, la ecuación Y en X se puede escribir como

$ {Y = 19.96 - 0.713X} $

Ecuación de regresión de Y en X

X = a + bY

Donde, ayb se obtienen por ecuaciones normales

$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2 \\ [7pt] Donde \ \ sum Y = 810, \ sum Y ^ 2 = 54,750 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Rightarrow} $ 800 = 12a + 810a + 810b ... (V)

$ {\ Rightarrow} $ 54,049 = 810a + 54, 750 ... (vi)

Multiplicando la ecuación (v) por 810 y la ecuación (vi) por 12, obtenemos

9720 a + 656100 b = 648000 ... (vii)

9720 a + 65700 b = 648588 ... (viii)

Restando eq viii de eq vii

900b = -588

$ {\ Rightarrow} $ b = 0.653

Sustituyendo el valor de b en la ecuación (v)

800 = 12a + 810 (0.653)

12a = 271.07

$ {\ Rightarrow} $ a = 22.58

Por lo tanto, la ecuación de regresión de X e Y es

$ {X = 22.58 + 0.653Y} $