Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoFloriana Villani Modificato 8 anni fa
1
Argomenti della lezione Il modello algebrico lineare Il modello statistico lineare La regressione lineare semplice
2
Alcuni aspetti generali
3
XY In una relazione diretta viene ad instaurarsi un legame tra una ben definita variabile X ed un’altra variabile Y e tale legame relazionale non è mediato da nessuna altra variabile Z Relazione diretta Ciò che accade ad Y è diretta conseguenza dei fatti che caratterizzano il comportamento di X.
4
Sotto queste condizioni: Y dipende funzionalmente da X tramite f. XY f In condizioni sperimentali controllate è possibile osservare una dipendenza univoca di Y dagli stati differenti che caratterizzano X. Sicché, è possibile dire che Y dipende funzionalmente da X quando, essendo noti i valori numerici che X può assumere i valori numerici ottenuti dalla variabile Y possono essere calcolati in maniera univoca a partire dai valori di X che vengono opportunamente trasformati utilizzando una regola, o algoritmo di trasformazione, che indicheremo con f.
5
XY In altre condizioni sperimentali, non è possibile osservare una completa dipendenza di Y dai fatti che caratterizzano X. E’ però possibile dire che Y dipende funzionalmente da X a meno dell’influenza diretta esercitata su Y da una terza variabile Z. Questa influenza potrà essere stimata tramite una funzione g(Z) dato però per certo che tra X e Z non sussista alcuna relazione funzionale k che sia nota a priori. In altri termini: non deve esistere un effetto indiretto (g k)(X) della variabile X sulla variabile Y tramite l’effetto diretto della variabile Z quantificato tramite g. g Z f In generale vale Y=f(X) + g(Z) + (g k)(X) k Non esistendo però alcuna funzione tra X e Z l’espressione si riduce a: Y=f(X) + g(Z)
6
Il modello algebrico lineare
7
L’algebra del modello lineare Il modello algebrico lineare è rappresentabile con una equazione della forma: Y= a + bX. Questo modello individua una collezione di coppie (x,y) di valori numerici, presenti sul piano cartesiano X Y, ottenute tramite una condizione di dipendenza funzionale di Y in rapporto ad X. Questa dipendenza funzionale ci permette di disporre tali coppie (x,y) lungo un ente geometrico detto retta. Per dipendenza funzionale va intesa la condizione in base alla quale prescelto un qualsiasi valore x dall’insieme X questo stesso valore permette, in maniera univoca, di conoscere il valore y di Y da assegnare alla coppia (x,y) in modo che questa giaccia sulla retta. Variabile dipendenteVariabile indipendente
8
Possiamo rappresentare il modello anche in forma funzionale con l’espressione: Y=f(X; a,b) e riscrivere la regola funzionale f nella seguente maniera: f a + b (X) In maniera algoritmica avremo + abX Y= a + b (X) Significato: aggiungi a al prodotto tra b ed il valore x ottenuto come determinazione della variabile X.
9
Il modello lineare assume quindi l’esistenza di una dipendenza funzionale dei secondi termini delle coppie a partire dalla conoscenza dei valori assunti dai primi termini e dalla conoscenza dei parametri funzionali a e b noti al modello. In questo modo è sempre possibile individuare una qualsiasi coppia sul piano cartesiano X Y che risulti composta funzionalmente nel seguente modo: (x,y) = (x, (a+bx) = y) Re 2. Sotto queste circostanze il grafico della funzione apparirà composto da punti in X Y allineati lungo una retta. Re 2
10
Y X (x i, (y i =a+bx i )) x1x1 x2x2 y1y1 y2y2 min(X) min f(X) = a Grafico della funzione Y=a+b(X) f(x,y) Re 2 xixi yiyi
11
Y X (x,(y=a+bx)) f(x,y) Re 2 x1x1 x2x2 y1y1 y2y2 min(X) (y|x 0 = min f(X) ) = a a = minimo della variabile Y in corrispondenza del valore minimo della variabile X. Interpretazione dei valori a e b del modello b = incremento costante in Y per incremento costante in X: b=(y 2 -y 1 )/(x 2 -x 1 ) in Y=f (X; a,b) b x0x0
12
L’espressione b=(y 2 -y 1 )/(x 2 -x 1 ) permette di riconoscere come l’incremento nella variabile Y dal valore y 1 al valore y 2 sia rapportabile all’incremento della variabile X dal valore x 1 al valore x 2. Inoltre, il valore di b è costante per qualsiasi coppia di valori (y i, y j ) ed (x i, x j ) vengano scelti dai rispettivi insiemi. Y X a y2-y1y2-y1 x2-x1x2-x1 b c b=(y 2 -y 1 )/(x2-x1)(x2-x1) x1x1 x2x2 y1y1 y2y2 Retta passante per due punti noti (y 2 -y 1 ) = b (x 2 -x 1 ) y1y2y1y2 x1x2x1x2
13
Y X Retta passante per l’origine o y1y1 x2x2 x3x3 p1p1 p2p2 p3p3 I punti sulla retta possono essere identificati tramite le loro coordinate sui due assi X e Y all’interno dello spazio euclideo Re 2. Re 2 p 1 =(x 1,y 1 )p 2 =(x 2,y 2 )p 3 =(x 3,y 3 ) y2y2 y3y3 x1x1
14
Y X o y1y1 x2x2 x3x3 p1p1 p2p2 p3p3 Re 2 y2y2 y3y3 x1x1 I rapporti tra le lunghezze dei segmenti, ottenuti come proiezioni delle coppie (x,y) sulla variabile X e sulla variabile Y rispettivamente, ci permettono di valutare come tale insieme di valori si mantenga costante e come il risultato comune sia uguale a b. Retta passante per l’origine
15
La costante b viene anche detta coefficiente angolare e permette di calcolare l'inclinazione (o la pendenza) che la retta ha quando essa ha come punto d’origine l’intersezione tra i due assi rappresentanti le variabili X ed Y. Essendo quindi si ha che
16
Possiamo riscontrare che se la retta con origine in o sta nel I o nel III quadrante, il suo coefficiente angolare b è positivo. Se la retta sta nel II o nel IV quadrante, il suo coefficiente angolare b è negativo (-b). I II IIIIV b b -b o
17
In generale possiamo rappresentare il segno algebrico (+ o -) che il valore parametrico b assume in funzione dei segni algebrici che le variabili X ed Y ottengono all’interno dei quattro quadranti cartesiani. (+,+)(-,+) (+,-)(-,-)b -bb Re 2
18
Retta non passante per l'origine Se indichiamo con o’= (min(X), a) il punto in cui r’ incontra l'asse Y, e tracciamo un nuovo asse parallelo ad X che chiamiamo con X’ avremo eseguito una traslazione sul punto di ordinata a dell’asse X sul nuovo asse X’. Questa traslazione ci permette di trasferire l'origine o nel nuovo sistema di riferimento X’o’Y. In questa circostanza dobbiamo riscrivere l’equazione della retta r’ sul sistema di riferimento degli assi XoY nella seguente maniera: Y=a+b(X); mentre in riferimento al sistema X’o’Y si ha Y=a+b(X’)-a = b(X’). a a a o o’ X X’ Y r’ r a
19
Verifica o o’ X X’ Y=Y’ y’= b x’ a y’=y-a x=x’ y’ y Per sostituzione: x’=xy’= b x’ y - a = b x y= b x + a
20
Se adesso confrontiamo la distanza tra le due rette r’ ed r possiamo verificare come questa distanza si mantenga costante e con valore uguale al parametro lineare a per qualsiasi valore venga scelto in X. a a a o o’ X X’ Y=Y’ r’ r y = b x + a y’= b x’ a (y’= b x’ )(y = b x + a)- y’ - y= a + b(x’ - x) x’ x ma (x’ – x) = 0 quindiy’ - y= aè la distanza in Y tra le due rette parallele. y’ x=x’ y y’
21
Fascio di rette di centro (x’, y’) Se la traslazione congiunta dei due assi avviene sul primo quadrante del sistema YoX possiamo scrivere l’equazione della retta nella seguente maniera: X X’ (x,y)=o (x’, y’) =o’ y’ - y = b x’ - bxy’ - y = b( x’ - x) Y’ Y x’ y’ y’ - y x’ - x = b
22
Il modello statistico lineare
23
E’ necessario perciò considerare la famiglia di esiti di un esperimento in senso statistico ed assumere che per le variabili X ed Y esistano delle leggi di probabilità che ne individuino il comportamento. Sotto queste circostanze il modello lineare statistico dovrà considerare la variabilità degli esiti che caratterizza l’osservazione della variabile Y fornita di una qualche regolarità statistica. Grafico del modello lineare statistico Y ( x, ( y =a+b x )) Re 2 xx yy y X (x, (y=a+b x+e)) e a x y (x, ( y=a+b x))
24
Equazione generale Possiamo allora descrivere il modello lineare statistico con l’equazione: dove i=1,…,n; ed n é il numero di coppie di dati (x, y). Si tenga presente che sebbene il termine e i risulti scritto alla destra dell’equazione, esso riguarda la variabile dipendente Y e non la variabile indipendente X. Sicché potremmo più chiaramente scrivere: yi=a+bx+eiyi=a+bx+ei y i - e i = a+bxPunto sulla retta Punto fuori dalla retta Y =
25
Commento Lo schema generale è: Valori osservati in Y = valori attesi dal modello variazione casuale + Il legame statistico lineare che mette in relazione la variabile X alla variabile Y può essere considerato composto da due termini tra loro indipendenti: da un lato abbiamo i valori attesi in base al modello lineare algebrico e indicati con y; dall’altro lato abbiamo invece la variazione casuale dell’esito y che può essere ricondotta ad una legge di probabilità La variazione casuale in Y è rappresentata dalla quantità e del modello e viene anche indicata come termine d’errore.
26
In un modello lineare statistico l’insieme delle coppie (x,y) sul piano appare in genere nella maniera seguente: (x 1, (y 1 =a+b x 1 +e)) y1y1 x1x1 In questo caso i parametri a e b della retta sono entrambi positivi mentre per ciascuna delle coppie (x,y) della retta r il valore casuale e potrà assumere un segno positivo oppure negativo a seconda che il punto cada al di sopra o al di sotto di r. r
27
La regressione lineare
28
L’obbiettivo della regressione lineare è quello di calcolare i parametri a e b che meglio rappresentino l’insieme delle coppie (x i,y i ) Re 2. La regressione lineare (x 1, (y 1 =a+b x 1 +e)) y1y1 x1x1 r
29
Il metodo dei minimi quadrati permette di individuare il luogo geometrico della retta r in modo tale che questa renda minima la somma delle superfici quadrate delle distanze e dei singoli punti (x,y) dalla stessa retta. Il metodo dei minimi quadrati Y X (xi,yi)(xi,yi) e2e2 r
30
La stima dei parametri Per ottenere questo traguardo è necessario considerare l’area totale generata dagli n punti (x,y) e renderla minima rispetto al luogo geometrico della retta r passante all’interno della nube dei punti sul piano. Pertanto potremmo scrivere: Y ( x, ( y =a+b x )) Re 2 xx yy y X (x, (y=a+b x+e)) e a x y (x, ( y=a+b x))
31
yiyi xixi r Sul piano noi disponiamo di n termini d’errore casuale e eiei yiyi ^
32
Y X (xi,yi)(xi,yi) e2e2 r Sugli stessi n termini d’errore casuale possiamo costruire le loro aree quadrate e 2 e sommarle
33
E’ adesso necessario rendere minima la somma dei quadrati e 2 identificando quella retta r nel piano Re 2 che sia in grado di rendere questo risultato possibile. Se adesso identifichiamo con S la funzione somma applicata all’n-pla relativa al campione dei dati ottenuti per Y. Se cioè: S(d 1,d 2,…,d n ) Possiamo usare la seguente espressione funzionale:
34
Noi però sappiamo che il valore y dipende funzionalmente dal valore x possiamo quindi sostituire il termine y con il valore restituito dall’applicazione della regola funzionale g nella seguente maniera: S(d 1,d 2,…,d n )
35
Procedimento analitico Deriviamo adesso la funzione S rispetto al parametro a. Uguagliando a 0 e ordinando i termini si ottiene la prima equazione normale della regressione lineare.
36
Deriviamo adesso la funzione S rispetto al parametro b. Uguagliando a 0 e ordinando i termini si ottiene la seconda equazione normale della regressione lineare.
37
Esempio Nel caso in cui n=3Deriviamo il parametro a Deriviamo il parametro b
38
Risolvendo simultaneamente il sistema di equazioni si ottengono le soluzioni volute per i parametri a e b. Equazioni normali della retta di regressione Per i=1,…,n
39
Valori dei parametri Per i=1,…,n
40
Equazioni del punto ( X, Y ) sulla retta Y ( x, ( y =a+b x )) Re 2 xx yy y X e a x Se assumiamo che il punto di coordinate ( X, Y ) appartenga alla retta, possiamo calcolare le equazioni normali di regressione in funzione delle coordinate del punto ( x, ( y =a+b x )). Siano quindi E(X)= X e E(Y)= Y i valori attesi centrali delle distribuzioni di probabilità delle variabili casuali X ed Y. y ^
41
Partiamo dalla prima equazione normale del metodo dei minimi quadrati: Operiamo adesso il passaggio ai valori attesi E(X)= x e E(Y)= y (centratura in ( x, y )) considerando questo punto come origine degli assi X ed Y. Essendoed anche Si tenga anche presente che la quantità totale dei valori di una variabile casuale è n volte più grande del suo valore atteso e cioè: e
42
Sostituendo le nuove espressioni all’interno della prima equazione normale otteniamo una nuova relazione della forma: Verifichiamo che l’espressione è ricavabile dividendo tutti i termini dell’equazione normale per la quantità n e risolvendo per a. Chiaramente: e Per i=1,…,n
43
Consideriamo adesso la seconda equazione normale Anche i questo caso possiamo esprimere l’equazione nei termini dei valori attesi delle variabili X ed Y sostituendo il risultato precedentemente ottenuto per il parametro a e risolvendo per b. Per i=1,…,n
44
Riassumendo Il parametro di regressione lineare a può essere calcolato a partire dai dati sperimentali ottenuti per le variabili casuali X ed Y essendo però noti i valori attesi delle due variabili; cioè: x e y. Il parametro di regressione lineare b è più complesso nella struttura del calcolo ma può anch’esso essere direttamente ottenuto a partire dai dati sperimentali impiegando la formula:
45
y- y x - x = b Y Re 2 xx y X e x yy Fascio di rette di centro ( X, Y ) Noi sappiamo che sul sistema centrato su ( X, Y ) è valida la relazione: Dalla quale sappiamo ricavare l’espressione: y- y = b(x - x ) y ^
46
Y Re 2 o’ = x y X e x’ yy Possiamo riconoscere osservando il grafico che la posizione del punto p di coordinate (x’,y) riferita all’origine relativa ( X, Y ) degli assi X ed Y può essere ottenuta geometricamente tramite la lunghezza del segmento (y, y ) in corrispondenza del valore x’. Sappiamo inoltre che una parte di questa lunghezza è da noi ricavabile in base alla dipendenza funzionale esistente tra le due variabili. Possiamo quindi per ogni valore di X ricavare la lunghezza del segmento (, y ) essendo = f(x’). Qualora il sistema non dovesse essere centrato su ( X, Y ) si dovrà sempre considerare il segmento ( , Y )=h e il segmento ( , X )=k. p=(x’,y) h oX x k y ^ y ^ y ^
47
y- y x - x = b y- y = b(x - x ) Abbiamo visto che il parametro di regressione b è quello importante poiché il parametro a può essere determinato sulla base della conoscenza di b e dei valori medi delle variabili X ed Y. Retta interpolante Noi però sappiamo che una retta passante per l’origine ha equazione: y = b x
48
Per considerare il sistema centrato sulla coppia ( X, Y ) è necessario annullare il valore del parametro a traslando l’asse X sull’origine x e l’asse Y sul valore Y. y- y = b(x - x ) y y xx Dato che [( y’+ y ) - y ]= b[(x’ + x ) - x ] x’ y’ o r quindiy’ = b x’ Se trasliamo gli assi di una quantità pari ai valori delle due medie possiamo utilizzare l’equazione di una retta passante per l’origine posta sul baricentro gravitazionale delle due variabili casuali X ed Y rispettivamente; mentre y’ e x’ sono i rispettivi scarti dalle medie. h= y k= x x y
49
Possiamo indicare per semplicità che y = + e Se riprendiamo i risultati precedentemente ottenuti possiamo sostituire l’elemento di conoscenza di natura non casuale e quindi possiamo scrivere: y = a+ bx + e Dei due addendi solo il primo è da noi predicibile in base al valore x; mentre il secondo è mutevole da prova a prova ed è dovuto a fattori casuali che incidono occasionalmente a modificare il valore del risultato finale. Dato osservatoValore previstoVariazione casuale y ^ y ^
50
In riferimento alle medie delle due variabili noi adesso sappiamo che il parametro a è calcolabile con: y = a+ bx + e Se sostituiamo questo risultato nella precedente espressione otteniamo: y = + e y = y - b x + bx + e = y + bx - b x + e = y + b(x - x ) + e La distanza tra il dato osservato e la media y della variabile Y è con ciò definito dalla relazione: y- y = b(x - x ) + e y ^
51
Il valore e può anch’esso essere espresso come distanza tra due punti dell’asse Y riconoscendo che e = (y - ). (y - )=( y- y ) - b(x - x ) Sostituendo e risolvendo per e Questa espressione ci dice che possiamo quantificare l’errore casuale (y - ) tramite la sottrazione dallo scarto osservato y’=(y - y ) la quantità x’=b(x - x ) nota a priori dal modello con centro in ( y, x ). y ^ y ^ y ^
52
Questo risultato ci porta a concludere che lo scarto del dato ossevato y’, o distanza ( y’- y ), sulla variabile dipendente Y dal proprio valore atteso E(Y) = y può essere additivamente ricomposta a partire dallo scarto, o distanza (x - x ) che x ha rispetto al valore atteso E(X) = x e dalla differenza dello scarto osservato in Y meno il dato atteso dal modello in corrispondenza di X. e = (y - )=( y- y ) - b(x - x ) y- y = b(x - x ) + e y - y = b(x - x ) + [( y- y ) - b(x - x )] y ^
53
Y Re 2 xx y X e x yy p=(x,y) o y - y = b(x - x ) + [( y - y ) - b(x - x )] y - y = ( - y ) + ( y - ) Y- y = ( - y ) + [( y - y ) - ( - y ) ] y ^ y ^ y ^ y ^ y ^ L’equazione è adesso riscritta interamente in termini di scarti dalle medie. y - y =b(x’) + (y’ – b x’)
54
Poiché la retta di regressione è il risultato di un’operazione di minimizzazione con derivazione a 0 la somma dei valori osservati deve essere uguale alla somma dei valori y predetti dal modello e cioè: essendoPer i=1,…,n Sommando gli n valori predetti avremo: y ^
55
La somma degli scarti tra valori osservati in Y e valori predetti in Y’= f(X) deve risultare nulla. yy xx (X,Y)(X,Y) La somma degli errori
56
Uguaglianze notevoli Riprendiamo adesso l’espressione precedentemente ricavata: Vogliamo adesso dimostrare che il numeratore del rapporto può essere espresso anche nei termini di una sommatoria di prodotti incrociati di scarti dei valori in Y ed in X nei confronti dei rispettivi valori attesi E(Y) = y e E(X) = x. Cioè, per i = 1,…, n
57
Verifica Essendo che:
58
Verifica Analizziamo adesso il denominatore del coefficiente b e verifichiamo come questo coincida con la somma dei quadrati degli scarti della variabile X rispetto al suo valore atteso E(X) = x con i=1,…,n
59
Varianze e covarianze La varianza Var(X) di una variabile casuale può essere stimata a partire dai dati campionari in base alla formula: La varianza Cov(X)= s di una variabile casuale può essere stimata a partire dai dati campionari in base alla formula: Quindi il parametro b può essere ottenuto come rapporto tra la covarianza di X ed Y e la varianza di X.
60
Dai risultati fin qui conseguiti, sommando su gli n valori in Y e quadrando otteniamo la misura della variazione totale nei dati come somma della variazione totale attesa dal modello lineare di regressione e di quella residua dovuta a fattori stocastici. Somma dei quadrati della regressione lineare Variazione totaleVariazione attesaVariazione casuale y - y = ( - y ) + (y - ) y ^ y ^
61
Verifica Sappiamo che la distanza y’ = (y - y ) tra dato osservato e media della variabile Y può essere espressa nei termini del parametro b del modello con y - y = b(x - x ) + [( y- y ) - b(x - x )] Poiché tutte le differenze implicate hanno un’origine comune ( x, y ) possiamo semplificare l’espressione dei valori delle distanze dei punti rispetto agli assi X ed Y come scarti dalle rispettive medie, possiamo quindi esprimere l’uguaglianza con l’espressione: y’ = b(x’) + [( y’) - b(x’)]
62
Sommando e quadrando sugli n valori gli scarti y’ = (y - y ) otteniamo Siccome siamo in grado di esprimere il parametro b anche nei termini del rapporto tra covarianza di X e di Y sulla varianza di X, sostituendo otteniamo che il terzo addendo si annulla; questo perché la somma delle distanze dei valori osservati rispetto alla propria media restituisce sempre il valore 0.
63
Rimane così verificato che Risulta anche che Per cui SS TOT SS REG SS RES =+ e
64
Relazione tra il parametro b della regressione lineare e il coefficiente r di Pearson La correlazione tra una variabile X ed una variabile Y può essere calcolata per gli n valori accoppiati con l’espressione algebrica Analogamente, per le equivalenze già dimostrate in precedenza, possiamo scrivere
65
Prima di procedere possiamo eliminare sia al numeratore che al denominatore il valore (n-1) -1 e quindi trasformare l’espressione nel modo che segue Il termine (n 2 ) -1 che figura al denominatore può essere trasportato al di fuori della radice ed eliminato con il relativo termine al numeratore Dalla quale ricaviamo
66
Con un ulteriore trasporto al denominatore di (n -1 ) al di fuori della radice e semplificando con il numeratore otteniamo Impiegando le variabili originarie l’espressione generale di calcolo del coefficiente di regressione è quindi:
67
La formula che ci permette di calcolare direttamente dai dati il coefficiente di correlazione r è quindi Nel caso in cui i valori x’ ed y’ siano scarti dalle rispettive medie la formula si semplifica ulteriormente in quanto
68
SS TOT SS REG SS RES =+ Se adesso dividiamo entrambi i termini per la somma dei quadrati degli scarti di Y dalla media y otteniamo Riprendiamo l’espressione
69
SS TOT SS REG SS RES =+ Generalizzando
70
Osserviamo adesso come il rapporto non sia altro che il quadrato di Sostituendo in Otteniamo
71
SS TOT SS REG =+ SS TOT Il coefficiente r 2 esprime il rapporto tra l’area quadrata totale attesa in Y in base al modello lineare algebrico della dipendenza funzionale f(X) e l’area quadrata totale osservata come variazione dal valore E(Y)= Y. Inoltre, tanto più elevato è questo valore tanto migliore sarà l’adattamento del modello di regressione lineare ai dati sperimentalmente ottenuti.
72
Abbiamo precedentemente osservato che il coefficiente di regressione b può essere espresso come Avendo adesso individuato la formula relativa al coefficiente di regressione r possiamo ricavare una nuova equivalenza se moltiplichiamo il numeratore ed il denominatore per la radice quadrata della varianza attesa per Y e cioè Pertanto
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.