La predizione o regressione

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Le distribuzioni di probabilità continue
Come organizzare i dati per un'analisi statistica al computer?
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
II° Circolo Orta Nova (FG)
Proprietà degli stimatori
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
COORDINATE POLARI Sia P ha coordinate cartesiane
La scelta del paniere preferito
“Teoria e metodi della ricerca sociale e organizzativa”
Lez. 3 - Gli Indici di VARIABILITA’
La regressione lineare trivariata
Uso dell’errore standard di misurazione
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Analisi Bivariata e Test Statistici
Analisi Bivariata e Test Statistici
Inferenza statistica per un singolo campione
Varianza campionaria Errore standard della varianza campionaria
Campionamento casuale semplice
Obiettivi del corso di Statistica Medica.
COSA VUOL DIRE FARE STATISTICA
ELEZIONI REGIONALI 2010 PRIMI RISULTATI E SCENARI 14 aprile 2010.
Canale A. Prof.Ciapetti AA2003/04
Corso di biomatematica lezione 10: test di Student e test F
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
STATISTICA a.a LA STATISTICA INFERENZIALE
Esercizi x1=m-ts x2=m+ts
MP/RU 1 Dicembre 2011 ALLEGATO TECNICO Evoluzioni organizzative: organico a tendere - ricollocazioni - Orari TSC.
Cos’è un problema?.
Gli italiani e il marketing di relazione: promozioni, direct marketing, digital marketing UNA RICERCA QUANTITATIVA SVOLTA DA ASTRA RICERCHE PER ASSOCOMUNICAZIONE.
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
Luciano giromini – la misura in psicologia, 2009 database e distribuzioni - misure di sintesi - misure di variabilità descrizione dei dati:
CHARGE PUMP Principio di Funzionamento
Verifica delle ipotesi su due campioni di osservazioni
Esercitazione 1: Rispetto al test di ansia (Media=25; σ=5), calcolare:
Q UESTIONI ETICHE E BIOETICHE DELLA DIFESA DELLA VITA NELL AGIRE SANITARIO 1 Casa di Cura Villa San Giuseppe Ascoli Piceno 12 e 13 dicembre 2011.
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
ISTITUTO COMPRENSIVO “G. BATTAGLINI” MARTINA FRANCA (TA)
RESTITUZIONE DATI RELATIVI ALLE PROVE
GEOGRAFIA DEI NUMERI Accademia dei Lincei - Roma 18 Ottobre2011
Un trucchetto di Moltiplicazione per il calcolo mentale
LA CIRCONFERENZA.
Prima rilevazione sullo stato di attuazione della riforma degli ordinamenti nelle istituzioni scolastiche in LOMBARDIA Attuazione del D.L. 59/2003 a.s.
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
GLI OBIETTIVI DELLA RICERCA
COVARIANZA e CORRELAZIONE.
Esempi risolti mediante immagini (e con excel)
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
NO WASTE Progetto continuità scuola primaria scuola secondaria Salorno a.s. 2013_
Intervalli di fiducia.
Compito 1: 1) La seguente distribuzione riporta i punteggi di depressione su individui con disturbo post- traumatico da stress: a)Costruire.
Gli indici di dispersione
La regressione II Cristina Zogmaister.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Il residuo nella predizione
La correlazione.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Analisi delle osservazioni
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

La predizione o regressione

Definizione di Predizione (1) Si usa una misurazione per predire un’altra misurazione di comportamento. Le misurazioni sono generalmente dei test mentali (abilità, profitto, personalità, atteggiamenti, temperamenti) o dati fisici o altre rilevazioni comportamentali.

Concetto della predizione statistica (regressione): Se a punteggi alti di un test (predittore) corrispondono punteggi alti di un altro test (comportamento predetto o stimato) e, viceversa, a punteggi bassi del predittore corrispondono punteggi bassi del predetto, si può usare il primo per predire il secondo.

Si ricorre al concetto matematico di funzione Una funzione matematica lega un insieme di numeri, usando costanti e variabili (e anche altre funzioni matematiche). Es y= k+x Y= log 10 (x) Y= a+mx

Si deve tenere conto che le predizioni non sono precise, e quindi la funzione dovrebbe essere scritta sempre così Y= mx + a + e dove e indica la parte di errore della predizione. Studieremo solo la relazione lineare

Definizione di predizione (2) Dovremo trasformare il punteggio del test predittore con una equazione di una retta, che predica al meglio (ovvero commettendo meno errori possibili) il punteggio ottenuto dal soggetto nel test predetto. L’equazione per trasformare il punteggio è la seguente:

Equazione di regressione La costante additiva a è chiamata intercetta. Rappresenta il punto in cui la retta incontra l’asse delle ordinate. La costante moltiplicativa m è chiamata pendenza o coefficiente angolare. Rappresenta il cambiamento in y all’aumentare di una unità in x.

Esempi di predizione Un test di abilità verbale predice la media dei voti a scuola. Una scala di Stima di sé è usata per predire il Senso di benessere e di salute psicofisica Il punteggio di Coscienziosità predice il livello di efficienza nel lavoro di gruppo.

Piccolo esempio numerico Raccogliamo un piccolo numero di osservazioni: Abilità verbale (un test psicometrico) Profitto scolastico (voto scolastico dato da insegnanti) Supponiamo che entrambe le misurazioni siano delle scale a intervalli

Osservazioni per otto studenti Test abilità verbale Voto scolastico A 12 8 B 10 7 C 14 D 9 5 E 6 F 13 G 11 H

Riportiamo in un grafico cartesiano le otto coppie di osservazioni In ascissa indichiamo la variabile indipendente (Abilità verbale) In ordinata riportiamo il valore della variabile dipendente (Voto scolastico) Osserviamo la distribuzione dei punteggi

La disposizione dei punti indica che c’è una relazione POSITIVA fra le due variabili

La relazione POSITIVA fra le due variabili può essere descritta e riassunta con una RETTA

Quale retta? Rossa verde o azzurra?

Quella che è più vicina a tutti i punti è la migliore

Come stabilire i parametri della retta di predizione Come stabilire i parametri della retta di predizione? Che criterio si può seguire? Stabilendo il criterio dei minimi quadrati: gli errori (ovvero gli scarti tra la retta di predizione e il punteggio realmente ottenuto dal soggetto) devono essere il più possibile piccoli, e il criterio operativo è quello di considerare il quadrato degli scarti, o errori. I metodi dell’analisi matematica forniscono la risposta con un’equazione dei minimi quadrati.

l’errore elevato al quadrato e la predizione si chiama Gli errori positivi devono compensare quelli negativi La loro somma è uguale a zero Perciò, il criterio da minimizzare non può essere l’errore semplice, ma l’errore elevato al quadrato e la predizione si chiama Equazione della retta dei minimi quadrati

Errore di previsione negativo Errore di previsione positivo

Quella che è più vicina a tutti i punti, seguendo il criterio dei MINIMI QUADRATI

Variabile dipendente, spiegata, valore osservato intercetta variabile indipendente errore inclinazione Stima di y, valore predetto

Il criterio può essere espresso con la formula

Formula di calcolo

Applicazione della formule

abilità voto voto_predetto 8 5 5,15 9 5,78 6 10 7 6,4 11 7,03 12 7,66 13 8,29 14 8,91 somma 86 55 media 10,75 6,875

Predizione usando i punti standardizzati

Predizione con punti zeta ẑyi = zeta predetto zxi = zeta predittore rxy = coefficiente di correlazione

soggetti Test R Test T Test R zeta test T zeta p1 37 50 1,33 0,45 p2 39 75 1,49 1,58 p3 9 24 -0,86 -0,72 p4 8 11 -0,94 -1,31 p5 6 25 -1,09 -0,68 p6 78 1,71 p7 18 -0,16 p8 16 20 -0,31 -0,90 p9 40 0,00 p10 53 0,59 somma 200 400 dev stan 12,79 22,17 1,00 varianza 163,60 491,60 media PREDIZIONE DEL PUNTEGGIO OTTENUTO AL TEST T TRAMITE IL PUNTEGGIO AL TEST R CON I PUNTI Z. PRIMO PASSAGGIO: TRASFORMAZIONE DEI PUNTEGGI IN PUNTI Z.

Sogg. Test R zeta Test T zeta 0,847 PREDIZIONE DEL PUNTEGGIO OTTENUTO AL TEST T TRAMITE IL PUNTEGGIO AL TEST R CON I PUNTI Z. SECONDO PASSAGGIO: CALCOLO DELLA PREDIZIONE DI T CON LA FORMULA: Sogg. Test R zeta Test T zeta prediz di T p1 1,33 0,45 1,13 p2 1,49 1,58 1,26 p3 -0,86 -0,72 -0,73 p4 -0,94 -1,31 -0,79 p5 -1,09 -0,68 -0,93 p6 1,71 p7 -0,16 -0,13 p8 -0,31 -0,90 -0,26 p9 0,00 p10 0,59 somma 0,000 dev stan 1,00 0,847 varianza 0,718 media

VARIANZA SPIEGATA Correlazione Varianza spiegata SOGGETTO TEST R ZETA TEST T ZETA PRODOTTI ZETA PREDIZIONE DI T P1 1,33 0,45 0,6 1,13 P2 1,49 1,58 2,34 1,26 P3 -0,86 -0,72 0,62 -0,73 P4 -0,94 -1,31 1,23 -0,79 P5 -1,09 -0,68 0,74 -0,93 P6 1,71 2,55 P7 -0,16 0,11 -0,13 P8 -0,31 -0,9 0,28 -0,26 P9 P10 0,59 SOMMA 8,473 DEVIAZIONE STD 1 0,877 0,847 VARIANZA 0,769 0,718 MEDIA Correlazione Varianza spiegata

VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T ZETA PRODOTTI ZETA PREDIZIONE DI T P1 1,33 0,45 0,6 1,13 P2 1,49 1,58 2,34 1,26 P3 -0,86 -0,72 0,62 -0,73 P4 -0,94 -1,31 1,23 -0,79 P5 -1,09 -0,68 0,74 -0,93 P6 1,71 2,55 P7 -0,16 0,11 -0,13 P8 -0,31 -0,9 0,28 -0,26 P9 P10 0,59 SOMMA 8,473 DEVIAZIONE STD 1 0,877 0,847 VARIANZA 0,769 0,718 MEDIA La varianza spiegata è la varianza dei predetti, cioè la varianza spiegata dalla regressione. 31 31

VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T ZETA PRODOTTI ZETA PREDIZIONE DI T P1 1,33 0,45 0,6 1,13 P2 1,49 1,58 2,34 1,26 P3 -0,86 -0,72 0,62 -0,73 P4 -0,94 -1,31 1,23 -0,79 P5 -1,09 -0,68 0,74 -0,93 P6 1,71 2,55 P7 -0,16 0,11 -0,13 P8 -0,31 -0,9 0,28 -0,26 P9 P10 0,59 SOMMA 8,473 DEVIAZIONE STD 1 0,877 0,847 VARIANZA 0,769 0,718 MEDIA Correlazione 32 32

Notiamo che… La varianza spiegata è la varianza dei predetti, cioè la varianza spiegata dalla regressione.

Proprietà della regressione La varianza dei predetti è uguale al coefficiente di determinazione: r2 La deviazione standard dei predetti è uguale al coefficiente di correlazione (in quanto radice quadrata della varianza) 34 34

Per passare dai punti zeta ai punti grezzi Si può costruire o calcolare l’equazione di regressione usando i punti grezzi, senza passare per i punti standardizzati: Ottengo questa formula applicando la formula per passare dai punti zeta al punteggio grezzo: x = z · s + m dove: s = dev. std. m = media

Predizione con misure sintetiche di x e y

ESEMPIO DI PREDIZIONE CON PUNTI GREZZI SOGGETTI TEST R TEST T PRODOTTI R · T R2 T2 STIME P1 37 50 1850 1369 2500 64,97 P2 39 75 2925 1521 5625 67,91 P3 9 24 216 81 576 23,84 P4 8 11 88 64 121 22,37 P5 6 25 150 36 625 19,44 P6 78 3042 6084 P7 18 432 324 37,06 P8 16 20 320 256 400 34,12 P9 40 1600 P10 53 1060 2809 40,00 SOMMA 200 10403 5636 20916 DEVIAZIONE STD 12,79 22,17 18,79 VARIANZA 163,60 491,60 352,96 MEDIA 20,00 COEFF ANGOLARE (m) 1,469   INTERCETTA (a) 10,632 CORRELAZIONE 0,847

Riassumendo dalla tabella Il soggetto p1 ha avuto punteggio 37 nel test R e 50 nel test T. Il test R è usato per predire il test T. Per predire il punteggio di p1 si utilizza l’equazione di regressione: T = R · m + a se m = 1.469 e a = 10.623 T= 37 ·1.469 +10.623= 64.97

Ricordiamo la correlazione fra le due misurazioni

Regressione con SPSS...

Costante additiva. E’ il valore della VD quando la VI è uguale a zero Costante additiva. E’ il valore della VD quando la VI è uguale a zero. In psicologia ha un senso relativo, dovuto all’arbitrarietà delle unità di misura (per i test mentali)

t di Student e sua significatività t di Student e sua significatività. Se non significativo, può essere omesso nell’equazione di regressione.

Errore standard della distribuzione campionaria della costante additiva. Serve per calcolare t e la significatività. In questo caso è molto grande in rapporto a B. La stima di B dà un valore non significativo

Perché non c’è niente qui?

Ecco la costante moltiplicativa: è il valore che moltiplica il punteggio dell’abilità verbale

Cefficiente beta standardizzato: con una sola VI, è uguale a r. Indica l’ammontare di cambiamento della VD per ogni unità della VI.

t di Student: se è significativa, si interpreta come valore diverso da zero, utile perciò nella predizione della VD

Significativià di t: se inferiore a 0,05, indica significatività del parametro b nella popolazione.

Errore standard (=deviazione standard della distribuzione campionaria del parametro moltiplicativo nella popolazione). Serve per calcolare la significatività

Errore standard (=deviazione standard della distribuzione campionaria del parametro moltiplicativo nella popolazione). Serve per calcolare la significatività

È un valore sempre positivo, anche quando r è negativo. R multiplo: indica la precisione della predizione. Importante nella regressione multipla. In quella semplice, R = r. È un valore sempre positivo, anche quando r è negativo.

Quadrato di R multiplo. Se moltiplicato per 100, dà la percentuale di varianza spiegata dalla VI

Perché stimare dei valori che abbiamo già in realtà? Per testare le capacità del test di predizione, per poterlo poi usare in situazioni reali, dove non si conosce il punteggio da predire.

Parametri Le rilevazioni eseguite su un campione forniscono dei riassunti (variabili casuali) che stimano i parametri della popolazione. I parametri della popolazione possono essere uguali a zero (e non influenzano la regressione) o diversi da zero (e allora la influenzano).

PRECISIONE DELLA STIMA Il punteggio predetto 30 è vicino a quello osservato, o reale, che non è conosciuto, ma è stimabile: c’è il 90% di probabilità che il valore esatto o osservato si situi entro l’intervallo 30-19.03 e 30+19.03, ossia fra 10.97 e 49.03 Il punteggio predetto 90 è vicino a quello osservato, o reale, che non è conosciuto, ma è stimabile: c’è il 90% di probabilità che il valore esatto o osservato si situi entro l’intervallo 90-19.03 e 90+19.03, ossia fra 70.97 e 119.03

Riassumendo La regressione statistica permette di stimare (o predire) il punteggio di un test (o di un’altra misurazione). Nella predizione del singolo caso non è mai possibile sapere se la predizione è esatta o molto sballata. Si può quantificare la predizione totale, fatta su tutti i casi (presenti e futuri): la quota di varianza spiegata (r2) è un utile indice per definire la precisione della predizione.

Meccanismo della predizione o della stima Per ogni individuo, l’equazione della regressione predice un valore di Y, indicato con Ŷ, simile ma non uguale al valore osservato Y Y sta vicino a Ŷ, con alta probabilità è molto vicino, con bassa probabilità è molto lontano dal valore vero Perciò, se non si può calcolare il punteggio reale, si può affermare che esso deve trovarsi con il 90 % (o altri livelli) di probabilità entro un certo intervallo calcolabile.