Il residuo nella predizione

Slides:



Advertisements
Presentazioni simili
8) GLI INTERVALLI DI CONFIDENZA
Advertisements

Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
Come organizzare i dati per un'analisi statistica al computer?
Distribuzione Normale o Curva di Gauss
Intervalli di confidenza
Proprietà degli stimatori
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
La regressione lineare trivariata
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
ANALISI DELLA COVARIANZA
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
STATISTICA 6.0: REGRESSIONE LINEARE
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
ISTOGRAMMI E DISTRIBUZIONI : i xixi
Modello di regressione lineare semplice
Misurazione Le osservazioni si esprimono in forma di misurazioni
Linee guida per la Chimica Analitica Statistica chemiometrica
Verifica delle ipotesi su due campioni di osservazioni
Quale valore dobbiamo assumere come misura di una grandezza?
Le distribuzioni campionarie
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Intervalli di fiducia.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Anova a due fattori Esempio di piano fattoriale: il caso della progettazione robusta di batterie Tipo di Materiale Temperatura (°F)
La predizione o regressione
PROPAGAZIONE DEGLI ERRORI:
Consideriamo due misurazioni, per esempio benessere e soddisfazione personale. Le due variabili sono simili. Chi ha punteggi sopra la media in una variabile,
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Esercitazione 1: Rispetto alla scala di pregiudizio sociale (Media=12; σ=3), calcolare: Quale percentuale della popolazione di adulti italiani otterrà.
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
Martina Serafini Martina Prandi
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
La correlazione.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
“Teoria e metodi della ricerca sociale e organizzativa”
La distribuzione campionaria della media
Elaborazione statistica di dati
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Analisi delle osservazioni
Introduzione alle distribuzioni di probabilità di Gauss o normale di Bernoulli o binomiale di Poisson o dei casi rari.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Gli Indici di VARIABILITA’
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
Transcript della presentazione:

Il residuo nella predizione

Definizione di residuo Il residuo è la differenza fra il punteggio predetto e il punteggio osservato Residuo= Osservato – Predetto Graficamente, è la distanza tra il punto indicante la misurazione realmente effettuata e il suo corrispondente appartenente alla retta di regressione.

Variabile dipendente, spiegata, valore osservato intercetta variabile indipendente errore inclinazione Stima di y, valore predetto

abilità voto voto_predetto residuo predizione 8 5 5,15 -0,15 -1,30 9 5,78 -0,78 -0,82 6 0,22 10 7 6,4 0,6 -0,35 11 7,03 -0,03 0,12 12 7,66 0,34 0,59 13 8,29 0,71 1,06 14 8,91 -0,91 1,53 somma 86 55 media 10,75 6,875

Predizione con punti zeta ẑyi = zeta predetto zxi = zeta predittore rxy = coefficiente di correlazione

Predizione usando i punti standardizzati

soggetti Test R Test T Test R zeta test T zeta p1 37 50 1,33 0,45 p2 39 75 1,49 1,58 p3 9 24 -0,86 -0,72 p4 8 11 -0,94 -1,31 p5 6 25 -1,09 -0,68 p6 78 1,71 p7 18 -0,16 p8 16 20 -0,31 -0,90 p9 40 0,00 p10 53 0,59 somma 200 400 dev stan 12,79 22,17 1,00 varianza 163,60 491,60 media PREDIZIONE DEL PUNTEGGIO OTTENUTO AL TEST T TRAMITE IL PUNTEGGIO AL TEST R CON I PUNTI Z. PRIMO PASSAGGIO: TRASFORMAZIONE DEI PUNTEGGI IN PUNTI Z.

Sogg. Test R zeta Test T zeta 0,847 PREDIZIONE DEL PUNTEGGIO OTTENUTO AL TEST T TRAMITE IL PUNTEGGIO AL TEST R CON I PUNTI Z. SECONDO PASSAGGIO: CALCOLO DELLA PREDIZIONE DI T CON LA FORMULA: Sogg. Test R zeta Test T zeta prediz di T p1 1,33 0,45 1,13 p2 1,49 1,58 1,26 p3 -0,86 -0,72 -0,73 p4 -0,94 -1,31 -0,79 p5 -1,09 -0,68 -0,93 p6 1,71 p7 -0,16 -0,13 p8 -0,31 -0,90 -0,26 p9 0,00 p10 0,59 somma 0,000 dev stan 1,00 0,847 varianza 0,718 media

VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T ZETA PRODOTTI ZETA PREDIZIONE DI T RESIDUO P1 1,33 0,45 0,6 1,13 -0,68 P2 1,49 1,58 2,34 1,26 0,32 P3 -0,86 -0,72 0,62 -0,73 0,01 P4 -0,94 -1,31 1,23 -0,79 -0,51 P5 -1,09 0,74 -0,93 0,25 P6 1,71 2,55 0,46 P7 -0,16 0,11 -0,13 -0,59 P8 -0,31 -0,9 0,28 -0,26 -0,64 P9 0,79 P10 0,59 SOMMA 8,473 DEVIAZIONE STD 1 0,877 0,847 0,531 VARIANZA 0,769 0,718 0,282 MEDIA Correlazione Varianza spiegata Varianza residua Somma = 1

VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T ZETA PRODOTTI ZETA PREDIZIONE DI T RESIDUO P1 1,33 0,45 0,6 1,13 -0,68 P2 1,49 1,58 2,34 1,26 0,32 P3 -0,86 -0,72 0,62 -0,73 0,01 P4 -0,94 -1,31 1,23 -0,79 -0,51 P5 -1,09 0,74 -0,93 0,25 P6 1,71 2,55 0,46 P7 -0,16 0,11 -0,13 -0,59 P8 -0,31 -0,9 0,28 -0,26 -0,64 P9 0,79 P10 0,59 SOMMA 8,473 DEVIAZIONE STD 1 0,877 0,847 0,531 VARIANZA 0,769 0,718 0,282 MEDIA La varianza spiegata è la varianza dei predetti, cioè la varianza spiegata dalla regressione. 10 10

VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T ZETA PRODOTTI ZETA PREDIZIONE DI T RESIDUO P1 1,33 0,45 0,6 1,13 -0,68 P2 1,49 1,58 2,34 1,26 0,32 P3 -0,86 -0,72 0,62 -0,73 0,01 P4 -0,94 -1,31 1,23 -0,79 -0,51 P5 -1,09 0,74 -0,93 0,25 P6 1,71 2,55 0,46 P7 -0,16 0,11 -0,13 -0,59 P8 -0,31 -0,9 0,28 -0,26 -0,64 P9 0,79 P10 0,59 SOMMA 8,473 DEVIAZIONE STD 1 0,877 0,847 0,531 VARIANZA 0,769 0,718 0,282 MEDIA La varianza residua (o varianza dei residui) indica quella parte di varianza non spiegata dalla regressione, (attribuibile all’errore). 11 11

VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T ZETA PRODOTTI ZETA PREDIZIONE DI T RESIDUO P1 1,33 0,45 0,6 1,13 -0,68 P2 1,49 1,58 2,34 1,26 0,32 P3 -0,86 -0,72 0,62 -0,73 0,01 P4 -0,94 -1,31 1,23 -0,79 -0,51 P5 -1,09 0,74 -0,93 0,25 P6 1,71 2,55 0,46 P7 -0,16 0,11 -0,13 -0,59 P8 -0,31 -0,9 0,28 -0,26 -0,64 P9 0,79 P10 0,59 SOMMA 8,473 DEVIAZIONE STD 1 0,877 0,847 0,531 VARIANZA 0,769 0,718 0,282 MEDIA La somma della varianza spiegata e della varianza residua è pari alla varianza totale del punteggio predetto. 12 12

VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T ZETA PRODOTTI ZETA PREDIZIONE DI T RESIDUO P1 1,33 0,45 0,6 1,13 -0,68 P2 1,49 1,58 2,34 1,26 0,32 P3 -0,86 -0,72 0,62 -0,73 0,01 P4 -0,94 -1,31 1,23 -0,79 -0,51 P5 -1,09 0,74 -0,93 0,25 P6 1,71 2,55 0,46 P7 -0,16 0,11 -0,13 -0,59 P8 -0,31 -0,9 0,28 -0,26 -0,64 P9 0,79 P10 0,59 SOMMA 8,473 DEVIAZIONE STD 1 0,877 0,847 0,531 VARIANZA 0,769 0,718 0,282 MEDIA Correlazione 13 13

Notiamo che… La varianza spiegata è la varianza dei predetti, cioè la varianza spiegata dalla regressione. La varianza residua (o varianza dei residui) indica quella parte di varianza non spiegata dalla regressione, (attribuibile all’errore). La somma della varianza spiegata e della varianza residua è pari alla varianza totale del punteggio predetto.

Proprietà della regressione I residui hanno media M = 0 La varianza dei predetti è uguale al coefficiente di determinazione: r2 La deviazione standard dei predetti è uguale al coefficiente di correlazione (in quanto radice quadrata della varianza) La varianza dei residui è pari al quadrato del coefficiente di alienazione: (1-r2) Il coefficiente di alienazione può essere definito anche come la radice di questo valore: √(1-r2). In questo caso rappresenterà la deviazione standard dei residui (e non la loro varianza) La correlazione fra i residui e i predetti è nulla 15 15

Per passare dai punti zeta ai punti grezzi Si può costruire o calcolare l’equazione di regressione usando i punti grezzi, senza passare per i punti standardizzati: Ottengo questa formula applicando la formula per passare dai punti zeta al punteggio grezzo: x = z · s + m dove: s = dev. std. m = media

Predizione con misure sintetiche di x e y

ESEMPIO DI PREDIZIONE CON PUNTI GREZZI SOGGETTI TEST R TEST T PRODOTTI R · T R2 T2 STIME RESIDUI P1 37 50 1850 1369 2500 64,97 -14,97 P2 39 75 2925 1521 5625 67,91 7,09 P3 9 24 216 81 576 23,84 0,16 P4 8 11 88 64 121 22,37 -11,37 P5 6 25 150 36 625 19,44 5,56 P6 78 3042 6084 10,09 P7 18 432 324 37,06 -13,06 P8 16 20 320 256 400 34,12 -14,12 P9 40 1600 17,63 P10 53 1060 2809 40,00 13,00 SOMMA 200 10403 5636 20916 DEVIAZIONE STD 12,79 22,17 18,79 11,77 VARIANZA 163,60 491,60 352,96 138,64 MEDIA 20,00 0,00 COEFF ANGOLARE (m) 1,469   INTERCETTA (a) 10,632 CORRELAZIONE 0,847

Riassumendo dalla tabella Il soggetto p1 ha avuto punteggio 37 nel test R e 50 nel test T. Il test R è usato per predire il test T. Per predire il punteggio di p1 si utilizza l’equazione di regressione: T = R · m + a se m = 1.469 e a = 10.623 T= 37 ·1.469 +10.623= 64.97 La differenza fra il punteggio osservato e quello predetto è il residuo: 50-64,97 = -14,97 La varianza dei predetti (varianza spiegata) più la varianza dell’errore (varianza residua) è uguale alla varianza della variabile da predire.

Regressione con SPSS...

Parte seconda Esame dei residui

I residui Sono indipendenti dal predittore Costituiscono l’errore di predizione (o di stima) dell’equazione di regressione Hanno media uguale a 0 d.s. = sy · √(1-r2xy) (detta anche errore standard della stima) Si ipotizza che abbiano una distribuzione normale. Se sono distribuiti normalmente, possiamo applicare le tavole della curva normale, e stabilire che, per esempio: tra +- 1,64 errori standardizzati si trova il 90% degli errori di predizione

Perché si esaminano i residui? L’esame dei residui permette di: testare le capacità del test di predizione, per poterlo poi usare in situazioni reali, dove non si conosce il punteggio da predire. Valutare distribuzioni anomale, sbilanciate in una direzione o nell’altra, in alcune zone della distribuzione dei punteggi osservati piuttosto che in altre. L’esame dei residui è veramente proficuo nella regressione multipla

68.26% ± 1 ds 90% ± 1,64 ds 95,45% ± 2 ds 95% ± 1,96 ds

Distribuzione ipotetica dei residui Il 90 % degli errori di predizione è compreso fra -19,3 e +19,3 Il 68 % degli errori di predizione è compreso fra -11,77 e + 11,77 (Il resto è più grande in valori assoluti)

Rappresentazione grafica della predizione di due punteggi qualsiasi, p Rappresentazione grafica della predizione di due punteggi qualsiasi, p. es., 30 e 90, con le frequenze di possibili errori Asse dei punteggi 30 90 Le curve rappresentano la probabilità di trovare un punteggio predetto corrispondente ad un certo valore diverso dal punteggio osservato, oppure la probabilità che il punteggio reale sia un certo valore (diverso dal punteggio predetto). Per esempio, per quanto riguarda 30, è più probabile trovare punteggi predetti intorno a 30 che valori che si distanziano notevolmente dal valore osservato, ed è più probabile che, se il punteggio predetto è 30, il valore reale sia circa 30.

Stima e precisione della stima Il punteggio predetto 30 è vicino a quello osservato, o reale, che non è conosciuto, ma è stimabile: c’è il 90% di probabilità che il valore esatto o osservato si situi entro l’intervallo 30-19.03 e 30+19.03, ossia fra 10.97 e 49.03 Il punteggio predetto 90 è vicino a quello osservato, o reale, che non è conosciuto, ma è stimabile: c’è il 90% di probabilità che il valore esatto o osservato si situi entro l’intervallo 90-19.03 e 90+19.03, ossia fra 70.97 e 119.03

Riassumendo La regressione statistica permette di stimare (o predire) il punteggio di un test (o di un’altra misurazione). Nella predizione del singolo caso non è mai possibile sapere se la predizione è esatta o molto sballata. Si può quantificare la predizione totale, fatta su tutti i casi (presenti e futuri): la quota di varianza spiegata (r2) è un utile indice per definire la precisione della predizione.

Meccanismo della predizione o della stima Per ogni individuo, l’equazione della regressione predice un valore di Y, indicato con Ŷ, simile ma non uguale al valore osservato Y La differenza fra Y e Ŷ è chiamata residuo, o errore Y sta vicino a Ŷ, con alta probabilità è molto vicino, con bassa probabilità è molto lontano dal valore vero Questa relazione è definibile con la curva gaussiana, con m = 0 e σ = err. stand. della stima Perciò, se non si può calcolare il punteggio reale, si può affermare che esso deve trovarsi con il 90 % (o altri livelli) di probabilità entro un certo intervallo calcolabile.