Pagina iniziale | Navigazione |
Google

Regressione lineare

La regressione formalizza il problema di una relazione funzionale della misurazione tra variabili, sulla base di dati campionari estratti da un’ipotetica popolazione infinita.

Originariamente Galton utilizzava il termine come sinonimo di correlazione, tuttavia oggi in statistica l’analisi della regressione associata alla risoluzione del modello lineare. Per ogni osservazione campionaria si dispone di una determinazione Y e di k determinazioni non stocastiche X1, X2, Xk... Si cerca quindi una relazione di tipo lineare tra la variabile Y e le k variabili deterministiche. Una prima analisi può essere condotta considerando un modello semplice a due variabili (si suppone in pratica che k sia pari a 1). Un tipico esempio riscontrabile dall’esperienza economica considerando la relazione tra Consumi (C) e Reddito (Y). Ricercando una relazione funzionale in cui i consumi siano “spiegati” dal reddito si può ricorrere alla relazione lineare C=f(Y) generica relazione dei Consumi C=a+bY relazione lineare a rappresenta l’intercetta e b il coefficiente angolare della retta interpolatrice.

Generalizzando il problema a due variabili X e Y , scriveremo Yi=a+b*h(Xi)+ei

h(X) una generica funzione di X e comunemente si assume h(X)=X Ponendo tale condizione senza perdita di generalità la formula diviene.

Yi= a + bXi + ei

Quindi la variabile dipendente Y viene “spiegata” attraverso una relazione lineare della variabile indipendente X (cio: a + bX) e da una quantità casuale ei.

Il problema della regressione si traduce nella determinazione di a e b in modo da esprimere al ‘meglio’ la relazione funzionale tra Y e X. Per avvalorare di un significato statistico la scelta dei coefficienti occorre realizzare alcune ipotesi sul modello lineare di regressione.

X  una variabile deterministica
E(ei)=0
Var (ei) costante per ogni i
Cov(ei ;ej)=0  per ogni i diverso da j

Date queste ipotesi si calcolano i coefficienti a e b secondo il metodo dei minimi quadrati proposto da Gauss (indicando con ** l'elevamento a potenza):

S=S(a,b)= Σ ei**2 =Σ (Yi– a – b Xi )** 2 = minimo rispetto (a ,b)

Le soluzioni si ricavano uguagliando a zero le derivate parziali di S rispetto ad a e b

δS/δa= -2 Σ (Yi – a – b Xi) = 0

δS/δb= -2 Σ (Yi – a – b Xi ) Xi = 0

Indicando con N il numero delle osservazioni

a N + b Σ Xi = Σ Yi

a Σ Xi + b Σ Xi**2= Σ Xi Yi

da cui si ricavano le soluzioni

      Σ Yi  Σ Xi**2  - Σ Xi  Σ Xi Yi
a= ---—---—---—---—---—---—---—---
      N Σ X(i)**2 – (Σ X (i)**2)

    N Σ X(i) Y(i)  - Σ X(i)  Σ Y(i)
b= ---—---—---—---—---—---—---—---
     N Σ X(i)**2 – (Σ X(i))**2

Essendo la varianza campionaria data da :
Sxx= Σ (X(i) – μ(x))**2/ N
e la covarianza campionaria da:
Sxy= Σ (X(i) – μ(x)) (Y(i) – μ(y)) / N
dove μ la media campionaria, si possono scrivere i parametri nella forma
b= Sxy / Sxx
a= μ(y) – b μ(x)


GNU Fdl - it.Wikipedia.org




Google | 

Enciclopedia |  La Divina Commedia di Dante |  Mappa | : A |  B |  C |  D |  E |  F |  G |  H |  I |  J |  K |  L |  M |  N |  O |  P |  Q |  R |  S |  T |  U |  V |  W |  X |  Y |  Z |