La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro.

Presentazioni simili


Presentazione sul tema: "LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro."— Transcript della presentazione:

1 LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro Università di Sassari

2 IL TEOREMA DEI MINIMI QUADRATI E LA CURVA DI GAUSS

3 IL METODO DEI MINIMI QUADRATI Il primo ad utilizzare tale metodo fu Carl Friederich Gauss ( ) TEOREMA Il valore medio delle osservazioni O m è il valore medio della grandezza misurata che minimizza La somma degli errori al quadrato

4 DIMOSTRAZIONE O i = i-esima osservazione O m = il valore medio x = il valore vero ε i = l’errore di cui è affetta l’i-esima osservazione Siano: Poiché

5 Consideriamo la somma degli scarti dal valore vero al quadrato Che può essere scritta, relativa alla media, come: Dobbiamo dimostrare che questa somma è minima quando x =O m Sviluppando i quadrati si ottiene:

6 Da cui ordinando si ha: Raggruppando si ottiene: Essendo = 0

7 Si ha alla fine: Questa funzione ha un minimo in Da cui sostituendo si ha:

8 LA CURVA DI GAUSS Il prototipo della curva di Gauss è Con h = parametro di larghezza Studiamo questa funzione

9

10

11 La funzione ha quindi un massimo E due flessi

12 h = parametro di larghezza?

13 Non è ancora nella sua forma finale Condizione di normalizzazione

14 Sostituendo x con x-X Il massimo sarà X XX f(x) x

15 Si può dimostrare che Ed infine si ha

16 La deviazione standard come limite di confidenza del 68% Probabilità che una data misura cada in [a,b] Probabilità che una data misura cada tra [μ-σ, μ+σ ]

17 68%

18 I MODELLI STATISTICI

19 I modelli statistici sono strumenti matematici e algebrici in grado di analizzare le componenti regolari e casuali di un insieme di dati In questo corso analizzeremo le relazioni fra variabili con il metodo della regressione multipla. Tale classe di modelli appartiene ai metodi dell’Analisi a più variabili. Saranno analizzate principalmente le tecniche della regressione lineare multipla [modelli lineari o linearizzabili] e una parte sarà dedicata alla regressione non lineare (esponenziale; allometrica) Le applicazioni saranno eseguite con le routine di MS-Excell®

20 Il fine dell’analisi della regressione multipla è quello di stabilire, se esiste, una relazione fra una variabile risposta (variabile dipendente, generalmente indicata con y) e un insieme di variabili indipendenti, generalmente indicate con x 1, x 2 …x n. Il modello statistico generale è il seguente y i = a + b 1 x 1i +b 2 x 2i,+…+b n x ni +ε i In cui y i = variabile dipendente; x. i = variabile indipendente; ε i = scostamento casuale dal modello o residuo (media =0, varianza σ 2 ); a = intercetta (stessa dimensione della y); b = coefficienti (o regressori parziali) del modello. Nelle scienze zootecniche l’analisi della regressione multipla è ampiamente utilizzata per la messa a punto di modelli di previsione del comportamento di una variabile di interesse zootecnico (es.: produzione di latte, accrescimento, qualità di prodotti, ingestione alimentare, ecc..) rispetto ad altre variabili [chiamate “predittori del modello”]

21 REGRESSIONE LINEARE SEMPLICE Consideriamo il caso in cui una certa variabile detta variabile dipendente è influenzata da una o più variabili dette variabili dipendenti. Il caso più semplice è: la y dipende solo da un’altra variabile x. ESEMPIO: relazione tra peso ed ingestione in pecore Sarde in asciutta

22

23 PLOT DEI DATI SU UN SISTEMA DI ASSI

24 Il metodo impiegato per la stima dei parametri dell’equazione che meglio si adatta ai dati è quello detto DEI MINIMI QUADRATI La procedura generale dei minimi quadrati è la seguente:

25 Equazione cartesiana della retta: In statistica: Una equazione in questa forma rappresenta un modello deterministico

26

27 Vogliamo ottenere la stima dei parametri del modello: Per ottenere la retta di regressione La stima di E(y) è data dall’equazione

28 Metodo dei minimi quadrati per la stima dei parametri e Consideriamo il cosiddetto residuo Il metodo dei minimi quadrati permette di scegliere la retta migliore per minimizzare la somma:

29 Sviluppando i quadrati si ottiene: Questa funzione è minima quando la derivata prima rispetto β 0 e a β 1 è zero:

30 Sviluppiamo la prima:

31 Sviluppiamo la seconda:

32 Le due derivate costituiscono un sistema di equazioni: Poniamo: E sostituendo:

33 Risolvendo il sistema di equazioni si ottiene: E sostituendo: β 0 sarà calcolata sostituendo nell’equazione della retta:

34 REGRESSIONE LINEARE MULTIPLA

35 IngestionePesoProdLatte 2,83345,01,7 2,45944,01,4 2,08735,01,2 2,13041,01 2,94142,02 3,00343,42,1 2,52446,91,2 2,66345,21,5 2,29539,81,2 3,16050,12,2 2,92649,21,9 2,72245,31,5 3,03146,22 2,35344,21,2 2,31041,21,24 3,15452,12,05 3,09447,72,11 2,78548,21,75 2,10838,11,1 2,44049,00,9 Esempio: è noto che l’ingestione alimentare degli animali zootecnici dipende, tra le altre cose, dalla mole e dal livello produttivo. La matrice dei dati riportata a fianco riguarda dei rilievi sperimentali effettuati su pecore in lattazione di razza Sarda. Il quesito è: riusciamo a prevedere l’ingestione di sostanza secca di una pecora Sarda in base al suo peso corporeo e alla sua produzione di latte?

36 Il modello fornisce un’unica previsione e un insieme di correlazioni parziali. Ciascun coefficiente “b” rappresenta un contributo indipendente di ciascuna variabile alla previsione del valore della variabile dipendente (y). Il fatto di dover fornire un contributo indipendente significa che la variabili “x” sono indipendenti fra loro, cioè non sono correlate. In termini geometrici, gli assi delle variabili (tutte, dipendente e indipendenti) sono fra loro ortogonali. Il primo passo dell’analisi della regressione lineare multipla è l’EDA (exploratory data analysis) che consiste 1. nel “plottare” le singole variabili indipendenti rispetto alla variabile dipendente; 2. nel calcolare la matrice della correlazione fra le variabili indipendenti. Se fra due di esse la correlazione è “importante” [ad es, esiste (cioè è differente da zero per p<0,05) ed è superiore al 20-25%, una delle variabili deve essere eliminata per evitare fenomeni di collinearità.]

37 L’EDA consente di verificare: 1.Se l’andamento della singola variabile indipendente rispetto alla dipendente è lineare 2.Se vi è una correlazione “importante” fra le due 3.Se le variabili indipendenti sono correlate fra di loro 4.Se esiste una aggregazione di dati [cluster] e dei dati “lontani” detti outliers

38 Risposte ai singoli quesiti EDA. 1.Si: il “regressore” può essere trattato con un modello lineare. No: si deve utilizzare una trasformata (es, logaritmo, inversa, ecc.) oppure un ordine superiore (quarato, cubo). 2.Si: la variabile va inserita nel modello lineare. No: va esclusa. 3.Si: va scartata una delle due, di solito quella meno correlata con la y (cioè quella che spiega una minore quota di variabilità). 4.Si: deve essere cambiata la scala (cluster); devono essere ricontrollati i dati e “scaricati” quelli anomali (grande attenzione a non “scaricare” dati “buoni”)

39 Un altro assunto importante per l’analisi della regressione multipla è la distribuzione normale delle variabili e degli errori (o residui). Ing. kgSS peso (kg) Latte (kg) Media2,6509Media44,68Media1,5625 Errore standard0, Errore standard0,958359Errore standard0, Mediana2,6925Mediana45,1Mediana1,5 Moda#N/DModa#N/DModa1,2 Deviazione standard0, Deviazione standard4,285913Deviazione standard0, Varianza campionaria0, Varianza campionaria18,36905Varianza campionaria0,17982 Curtosi-1, Curtosi0,000342Curtosi-1,52423 Asimmetria-0, Asimmetria-0,44209Asimmetria0, Intervallo1,073Intervallo17,1Intervallo1,3 Minimo2,087Minimo35Minimo0,9 Massimo3,16Massimo52,1Massimo2,2 Somma53,018Somma893,6Somma31,25 Conteggio20Conteggio20Conteggio20

40

41

42

43 EDA - Correlazioni (1)

44 EDA – Visione di insieme dei dati

45 EDA – Visione di insieme dei dati [superficie]

46 EDA - Correlazioni (2) Ing. kgSSpeso (kg)latte Ing. kgSS1 peso (kg)0, latte0, , Collinearità fra le variabili indipendenti Non vi è nessuna aggregazione [cluster] di dati né outliers.

47 s xy > 0 se x ed y tendono a cadere al di sopra delle lore medie s xy < 0 se x ed y tendono a cadere al di sotto delle lore medie Es. Peso statura LA CORRELAZIONE PARZIALE

48 CorrelazioneNegativaPositiva Piccola−0,3 a −0,10,1 a 0,3 Media−0,5 a −0,30,3 a 0,5 Grande−1,0 a −0,50,5 a 1,0 Es. Peso statura

49

50 Supponiamo di avere tre variabili: x, y, z Ci interessa la correlazione tra x ed y, ma sospettiamo che z influenzi tale correlazione. Ad esempio x=HG ed y=cn: quale è l’influenza di z=HD? quale è la correlazione netta tra HG e cn?

51 Calcoliamo r xy.z r xy.z uguale a r xy r xy.z diverso da r xy Algoritmo di calcolo: 1) Regressione x-z e residui 2) Regressione y-z e residui 3) La correlazione parziale r xy.z è la correlazione tra i residui

52 La bontà della regressione è valutabile : 1. Dal valore del coefficiente di determinazione R 2 2. Dalla distribuzione casuale dei residui 3. Dall’ininfluenza della eliminazione (trimming) di uno o più dati “estremi” sui valori dei regressori [a oppure b.] 4. Dall’esistenza deI regressore [a oppure b.] il cui valore deve essere significativamente diverso da zero. VALUTAZIONE DELLA REGRESSIONE

53 Risultati dell’analisi della regressione effettuata con MS-Excell® Coefficienti Errore standardStat t Valore di significatività Intercetta (SS)0,30580,16021,90950,0732 Variabile X 1 (PC)0,02980,00417,28520,0000 Variabile X 2 (L)0,64790,041415,65560,0000 L’equazione ottenuta è la seguente: Ingestione (kg/d SS) = 0,3058 (ns) + 0,0298 PC (kg) + 0,6479 L (kg/d) [+ ε]

54 Osservazione (Y)Prevista (Ŷ)Residui(ε) 2,8332,7500,083 2,4592,525-0,066 2,0872,127-0,040 2,1302,177-0,047 2,9412,8540,087 3,0032,9610,042 2,5242,4820,042 2,6632,6260,037 2,2952,2700,025 3,1603,226-0,066 2,9263,004-0,078 2,7222,6290,093 3,0312,9800,051 2,3532,402-0,049 2,3102,338-0,028 3,1543,188-0,034 3,0943,096-0,002 2,7852,877-0,092 2,1082,155-0,047 2,4402,3510,089 Sviluppo dell’equazione calcolata

55 Risultati dell’analisi della regressione effettuata con MS-Excell® Statistica della regressione R multiplo0, R al quadrato0, R al quadrato corretto0, Errore standard0,06552 Osservazioni20 ANALISI VARIANZA gdlSQMQFSignificatività F Regressione (Ŷ)22, , ,42040,00000 Residuo (ε)170, , Totale (Y)192, R 2 = coefficiente di determinazione. Misura la quota di variabilità “spiegata” dalla regressione sulla variabilità totale

56

57

58 Forma geometrica della regressione [superficie]

59 Un ulteriore modo per verificare la bontà del modello è quello di “plottare” i dati attesi su quelli osservati. Il modello è tanto migliore quanto l’R 2 è maggiore, se il parametro “a” non differisce significativamente da zero e se il parametro “b” non differisce significativamente da 1. Coeff.ESStat tP Inferiore 95% Superiore 95% Intercetta0,07720,10600,72830,4758-0,14550,2999 Variabile X 10,97090,039624,49870,00000,88761,0541

60 CoefficientiESStat tPInf95%Sup95% Intercetta-0,10180,3865-0,26340,7937-0,88500,6813 Variabile X 11,29760,17607,37480,00000,94111,6541 La validazione di un modello è la sua applicazione su un dataset indipendente. Nel caso del modello di ingestione da noi studiato, la sua applicazione ad una altro dataset ha fornito i seguenti risultati.

61 Stima dei parametri della curva di lattazione secondo il modello di Wood con il metodo della regressione lineare multipla. latte (kg/d) mesesecondipare 135,8 241,2 339,7 437,4 535,1 632,9 731,2 829,1 925,5 1022,2 Prendiamo in considerazione i dati di produzione giornaliera di una vacca secondipara Frisona, rilevati con cadenza mensile.

62 L’equazione gamma-modificata originariamente proposta da Wood (1966) è la seguente [vedi modulo 3 del corso] y(t) = a t b e -ct Il modello di wood può essere trasformato nella forma logaritmica ln (y) = ln (a) + b ln (t) + ct che rappresenta una equazione di regressione multipla utilizzabile per il fitting sui dati sperimentali Y = A + bx + ct In cui Y = ln(y); A = ln(a); x = ln(t)

63 Per poter applicare il modello logaritmico i dati devono essere riarrangiati nel seguente modo log(latte)log(mese)mese 3,5780,0001 3,7180,6932 3,6811,0993 3,6221,3864 3,5581,6095 3,4931,7926 3,4401,9467 3,3712,0798 3,2392,1979 3,1002,30310 Coefficienti Errore standard Intercetta3, , Variabile X 10, , Variabile X 2-0,137030, a = exp(3,725633) = 41,5 b = 0,336 c = -0,137 R 2 = 0,9841 y (t) = 41,5 t 0,336 e -0,137 t

64 Curva di lattazione stimata con il modello di Wood y (t) = 41,5 t 0,336 e -0,137 t ; R 2 =0,9841

65

66 Esercizio: evoluzione della produzione di latte in vacche Frisone: calcolare il valore dei parametri della curva di lattazione.

67 latte (kg/d) settimanaprimiparesecondiparepluripare 127,435,838,1 230,541,243,9 329,939,741,6 430,237, ,135,135,5 628,632,932,6 727,431,229,8 825,429, ,825,524,2 1021,322,220,2 Evoluzione della produzione di latte in vacche Frisone

68 Cenni di tecniche di regressione non lineare Tra le tecniche di regressione non lineare analizzeremo: 1.La regressione allometrica 2.La regressione esponenziale 3.I modelli polinomiali di grado superiore al 2°

69 La regressione allometrica segue il modello In cui i parametri da stimare sono “a” e “b” Prima di procedere all’applicazione del modello si effettua l’EDA sui dati sperimentali

70 Il grafico si riferisce alla produzione di latte e di grasso di pecore di razza Sarda. L’ipotesi è che l’andamento segua un modello allometrico

71 L’equazione trovata conferma che il la secrezione complessiva di grasso è meno che proporzionale a quella di latte con una ragione d’esponente pari a 0,85. Si impiega la routine grafica di Excell ® [click sui dati con il pulsante destro del mouse; aggiungi linea di tendenza; potenza; opzioni; equazione; R 2 ] per trovare l’equazione.

72 I dati a fianco si riferiscono alla velocità di secrezione oraria del grasso nel latte di pecore Frisone (Mickusick et al JDS 2002) Si impiega la routine grafica di Excell ® per trovare l’equazione.

73 L’equazione dice che la velocità di secrezione al tempo x=1 è di 14 g/h (circa) e che si riduce di una ragione esponenziale di circa 1/3 per ora.

74 La regressione esponenziale segue il modello matematico In cui i parametri da stimare sono “a” e “b” I dati a fianco si riferiscono alla frazione cisternale di latte in pecore Sarde in funzione dell’intermungitura (Pulina et al, 2005)

75 Si impiega la routine grafica di Excell ® [click sui dati con il pulsante destro del mouse; aggiungi linea di tendenza; opzioni; esponenziale; equazione; R 2 ] per trovare l’equazione.

76 Il modello polinomiale multiplo è il seguente I parametri da stimare sono la “a” e i “b.” I dati a fianco si riferiscono alla velocità di secrezione oraria del latte in pecore Frisone (Mickusick et al JDS 2002)

77 Si impiega la routine grafica di Excell ® [click sui dati con il pulsante destro del mouse; aggiungi linea di tendenza; opzioni; polinomiale; equazione; R 2 ] per trovare l’equazione. n.b. = excell calcola polinomi fino al 6° grado; dal 3° in poi i parametri perdono significato biologico!!

78 …infatti, l’aumento del grado del polinomio comporta il passaggio della curva su tutti i dati. Nel nostro caso un polinomio di 6° grado si comporta così: …con l’ovvia conseguenza di descrivere tutto e non spiegare nulla.

79 Fine del corso e buon lavoro.


Scaricare ppt "LAUEREA SPECIALISTICA IN PRODUZIONI ZOOTECNICHE MEDITERRANEE MODELLI MATEMATICI E STATISTICI [6– Modelli statistici] Proff. Giuseppe Pulina & Corrado Dimauro."

Presentazioni simili


Annunci Google