4.3 Regresión por mínimos cuadrados: Lineal y Cuadrática.
Que es una medida de la desviación total de los valores observados yi respecto de los predichos por el modelo lineal a x + b. Los mejores valores de la pendiente a y la ordenada al origen b son aquellos que minimizan esta desviación total, o sea, son los valores que remplazados en la Ec.(1) minimizan la funciónc2. Ec.(2). Los parámetros a y b pueden
obtenerse usando técnicas matemáticas que hacen uso del cálculo
diferencial. Aplicando estas técnicas, el problema de minimización se
reduce al de resolver el par de ecuaciones:
La
dependencia entre dos (o más) variables puede ser tal que se base en
una relación funcional (matemática) exacta, como la existente entre la
velocidad y la distancia recorrida por un móvil; o puede
ser estadística. La dependencia estadística es un tipo de relación entre
variables tal que conocidos los valores de la (las) variable
(variables) independiente(s) no puede determinarse con exactitud el
valor de la variable dependiente, aunque si se puede llegar a determinar
un cierto comportamiento (global) de la misma. (Ej. la relación
existente entre el peso y la estatura de los individuos de una población
es una relación estadística) .
Pues bien, el análisis de la dependencia estadística admite dos planteamientos (aunque íntimamente relacionados):
El estudio del grado de dependencia existente entre las variables que queda recogido en la teoría de la correlación.
La determinación de la estructura de dependencia que mejor exprese la relación, lo que es analizado a través de la regresión.
Una
vez determinada la estructura de esta dependencia la finalidad última
de la regresión es llegar a poder asignar el valor que toma la variable Y
en un individuo del que conocemos que toma un determinado valor para la
variable X (para las variablesX1, X2,..., Xn ).
En
el caso bidimensional, dadas dos variables X e Y con una distribución
conjunta de frecuencias ( xi, yj ,nij ), llamaremos regresión
de Y sobre X ( Y/X) a una función que explique la variable Y para cada
valor de X, y llamaremos regresión de X sobre Y (X/Y) a una función que
nos explique la variable X para cada valor de Y.(Hay que llamar la
atención, como se verá más adelante, que estas dos funciones, en
general, no tienen por qué coincidir).
MÉTODO DE CUADRADOS MÍNIMOS – REGRESIÓN LINEAL.
Hemos
enfatizado sobre la importancia de las representaciones gráficas y
hemos visto la utilidad de las versiones linealizadas de los gráficos (X, Y)
junto a las distintas maneras de llevar a cabo la linealización. A
menudo nos confrontamos con situaciones en las que existe o suponemos
que existe una relación lineal entre las variables X e Y.
Surge de modo natural la pregunta: ¿cuál es la relación analítica que mejor se ajusta a nuestros datos? El método de cuadrados mínimos es un procedimiento general que nos permite responder esta pregunta. Cuando la relación entre las variables X e Y es lineal, el método de ajuste por cuadrados mínimos se denomina también método de regresión lineal.
Observamos o suponemos una tendencia lineal entre las variables y nos preguntamos sobre cuál es lamejor recta:
y(x) = a x + b
Que representa este caso de interés. Es útil definir la función:
Actualmente,
la mayoría de los programas de análisis de datos y planillas de
cálculo, realizan el proceso de minimización en forma automática y dan
los resultados de los mejores valores de a y b, o sea los valores indicados por las ecuaciones.
Gráfico de datos asociados a un modelo lineal. La cantidad yi - y(xi)
representa la desviación de cada observación de yi respecto del valor predicho por
el modelo y(x).
representa la desviación de cada observación de yi respecto del valor predicho por
el modelo y(x).
El
criterio de mínimos cuadrados reemplaza el juicio personal de quien
mire los gráficos y defina cuál es la mejor recta. En los programas como
Excel, se realiza usando la herramienta “regresión lineal” o “ajuste
lineal”. Los resultados se aplican en el caso lineal cuando todos los
datos de la variable dependiente tienen la misma incertidumbre absoluta y
la incertidumbre de la variable independiente se considera
despreciable.
REGRESIÓN MÍNIMO-CUADRÁTICA
Consiste
en explicar una de las variables en función de la otra a través de un
determinado tipo de función (lineal, parabólica, exponencial, etc.), de
forma que la función de regresión se obtiene ajustando las observaciones
a la función elegida, mediante el método de Mínimos-Cuadrados (M.C.O.).
Elegido el tipo de función ¦ ( ) la función de regresión concreta se obtendrá minimizando la expresión:

(yj - ¦ (xi ) ) 2. nij en el caso de la regresión de Y/X
(xi - ¦ (yj ) ) 2. nij en el caso de la regresión de X/Y
n=length(X(1,:));
A=0;
B=0;
C=0;
D=0;
for i=1:n;
A=A+X(1,i);
B=B+X(2,i);
C=C+(X(1,i))^2;
D=D+X(1,i)*X(2,i);
end
m=(n*D-A*B)/(n*C-A^2);
b=(C*B-D*A)/(n*C-A^2);
for i=1:n;
hold on;
plot (X(1,i),X(2,i),'*','MarkerEdgeColor','r','LineWidth',1);
end
x=X(1,1):1:X(1,n);
y=m*x+b;
plot(x,y,'b');
title('Aproximación lineal por mínimos cuadrados.');
Por ejemplo, para los datos {(1,0),(2,3),(3,4),(4,-6),(5,2),(6,4),(7,0),(8,4),(9,3)}, se escribe en el Command Window:
>>X=[1 2 3 4 5 6 7 8 9; 0 3 4 -6 2 4 0 4 3];
>>[m,b]=mincuadlin(X)
Y el programa entrega los resultados:
m = 0.2833
b = 0.1389
Puede
probarse que es equivalente ajustar por mínimos cuadrados la totalidad
de las observaciones (toda la nube de puntos) que realizar el ajuste de
los puntos obtenidos por la regresión de la media; de forma que la
regresión mínimo-cuadrática viene ser, en cierto modo, la consecución de
una expresión analítica operativa para la regresión en sentido
estricto.
Coeficientes de regresión.
Se llama coeficiente de regresión a la pendiente de la recta de regresión:
en la regresión Y/X : b = Sxy / Sx2
en la regresión X/Y b' = Sxy / Sy2
El
signo de ambos coincidirá con el de la covarianza, indicándonos la
tendencia (directa o inversa a la covariación).Es interesante hacer
notar que b.b'= r2
BONDAD DEL AJUSTE (Varianza residual, varianza de la regresión y coeficiente de determinación)
Por
bondad del ajuste hay que entender el grado de acoplamiento que existe
entre los datos originales y los valores teóricos que se obtienen de la
regresión. Obviamente cuanto mejor sea el ajuste, más útil será la
regresión a la pretensión de obtener los valores de la variable.
Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una regresión de un determinado tipo u otro.
Puesto
que la media de los residuos se anula, el primer indicador de la bondad
del ajuste (no puede ser el error medio) será el error cuadrático
medio, o varianza del residuo, o varianza residual :
Considerando la regresión Y/X:
Que
será una cantidad mayor o igual que cero.De forma que cuanto más baja
sea mejor será el grado de ajuste.Si la varianza residual vale cero el ajuste será perfecto (ya que no existirá ningún error ).
Del hecho de que yi=y*i+ei ,y de que las variables y* ý e están incorrelacionadas se tiene que:
Donde S2y* es la llamada varianza de la regresión y supone la varianza de la variable regresión:
Igualdad
fundamental anterior de la que se deduce que la varianza total de la
variable y puede descomponerse en dos partes una parte explicada por la
regresión( la varianza de la regresión) y otra parte no explicada (la
varianza residual).
Considerando
que la varianza nos mide la dispersión de los datos este hecho hay que
entenderlo como que la dispersión total inicial queda, en parte
explicada por la regresión y en parte no.Cuanto mayor sea la proporción
de varianza explicada (y menor la no explicada) tanto mejor será el
ajuste y tanto más útil la regresión.
A la proporción de varianza explicada por la regresión se le llama coeficiente de determinación ( en nuestro caso lineal):
que
evidentemente estará siempre comprendido entre 0 y 1 y, en
consecuencia, da cuenta del tanto por uno explicado por la regresión.
Una consecuencia importante en la práctica es que la varianza residual será obviamente:
Es
sencillo probar que en el caso lineal que nos ocupa el coeficiente de
determinación coincide con el cuadrado del coeficiente de correlación:
R2 = r2
Con lo cual la varianza residual y la varianza debida a la regresión pueden calcularse a partir del coeficiente de correlación:
REGRESIÓN MÍNIMO CUADRÁTICA NO-LINEAL
La
regresión mínimo-cuadrática puede plantearse de forma que la función de
ajuste se busca no sea una función lineal. El planteamiento general
sería similar, aunque obviamente habría que minimizar el cuadrado de los
residuos entre los datos originales y los valor teóricos obtenibles a
través de la función no-lineal considerada.
Regresión parabólica .Desarrollaremos someramente la regresión Y/X y debe quedar claro que la regresión X/Y resultaría análoga.
Supongamos para simplificar que los datos no están agrupados por frecuencias.
En tal caso, obtener la función parabólica y* = a0+a1x+a2 x2 se llevará a cabo determinado los valores de los tres parámetros a0,a1,a2 que minimicen :
y (a0,a1,a2)=S (yi- (a0+a1x+a2 x2)) 2
Igualando
a cero las tres derivadas parciales se obtendrá las ecuaciones
normales, que convenientemente manipuladas acaban siendo:
Sistema de ecuaciones del que se pueden despejar los valores de los coeficientes de regresión.
CODIGO:
function [m,b]=mincuadlin(X)
n=length(X(1,:));
A=0;
B=0;
C=0;
D=0;
for i=1:n;
A=A+X(1,i);
B=B+X(2,i);
C=C+(X(1,i))^2;
D=D+X(1,i)*X(2,i);
end
m=(n*D-A*B)/(n*C-A^2);
b=(C*B-D*A)/(n*C-A^2);
for i=1:n;
hold on;
plot (X(1,i),X(2,i),'*','MarkerEdgeColor','r','LineWidth',1);
end
x=X(1,1):1:X(1,n);
y=m*x+b;
plot(x,y,'b');
title('Aproximación lineal por mínimos cuadrados.');
Por ejemplo, para los datos {(1,0),(2,3),(3,4),(4,-6),(5,2),(6,4),(7,0),(8,4),(9,3)}, se escribe en el Command Window:
>>X=[1 2 3 4 5 6 7 8 9; 0 3 4 -6 2 4 0 4 3];
>>[m,b]=mincuadlin(X)
Y el programa entrega los resultados:
m = 0.2833
b = 0.1389
Comentarios
Publicar un comentario