METODI E MISURAZIONI STATISTICHE

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

- le Medie la Moda la Mediana
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
8) GLI INTERVALLI DI CONFIDENZA
Le distribuzioni di probabilità continue
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
____________________
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
Frontespizio Economia Monetaria Anno Accademico
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
LA DISTRIBUZIONE NORMALE
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Inferenza statistica per un singolo campione
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Esercizi x1=m-ts x2=m+ts
DALL'INTERVALLO DI PROBABILITÀ
Varianza campionaria Errore standard della varianza campionaria
La distribuzione normale e normale standardizzata
Campionamento casuale semplice
Obiettivi del corso di Statistica Medica.
Introduzione alla statistica per la ricerca Lezione I
DISTRIBUZIONI TEORICHE DI PROBABILITA’
COSA VUOL DIRE FARE STATISTICA
Canale A. Prof.Ciapetti AA2003/04
Appunti di inferenza per farmacisti
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Corso di biomatematica lezione 4: La funzione di Gauss
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
Esercizi x1=m-ts x2=m+ts
I quindicenni italiani e le prove PISA Presentazione generale dei risultati e lettura dei dati sulla base delle variabili di contesto INVALSI
Cos’è un problema?.
Misurazione Le osservazioni si esprimono in forma di misurazioni
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 6 Inferenza statistica
METODI E CONTROLLI STATISTICI DI PROCESSO
Esercitazione 1: Rispetto al test di ansia (Media=25; σ=5), calcolare:
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Le distribuzioni campionarie
Un trucchetto di Moltiplicazione per il calcolo mentale
Compito 1: La seguente distribuzione riporta il numero di errori di un gruppo di bambini con ritardo mentale in un test di lettura”: Costruire una tabella.
LA CIRCONFERENZA.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Esempi risolti mediante immagini (e con excel)
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Lez. 3 - Gli Indici di VARIABILITA’
TRASFORMATA DI FOURIER
Gli indici di dispersione
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Martina Serafini Martina Prandi
Intervalli di confidenza
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Ipotesi operative TeoriaEsperienza diretta e/o personale Quesito Piano esecutivo Scelta popolazione Scelta strumenti Scelta metodi statistici Discussione.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Gli Indici di VARIABILITA’
Transcript della presentazione:

METODI E MISURAZIONI STATISTICHE Perugia 17/18 Dicembre 2012 Damiano Terenzi damianoterenzi@gmail.com

INTRODUZIONE Definizione di misura: Assegnare valori numerici ad oggetti o eventi secondo regole che consentono di rappresentare le proprietà degli oggetti e degli eventi tramite le proprietà del sistema numerico

INTRODUZIONE Molta parte del lavoro degli psicologi richiede di effettuare misurazioni (p.e. registrare i movimenti oculari o misurare la risposta galvanica cutanea di persone sotto stress)– sia in laboratorio sia sul campo. In ogni caso, l’operazione di misurazione produce dei numeri Fondamentale a questo scopo è la STATISTICA= disciplina che si occupa della raccolta di dati numerici e della derivazione di inferenze di tali dati. IL PROBLEMA DELLO PSICOLOGO È DI INTERPRETARLI!

ROADMAP DEL CAPITOLO STATISTICA DESCRITTIVA INFERENZA STATISTICA COEFFICIENTE DI CORRELAZIONE

STATISTICA DESCRITTIVA DISTRIBUZIONI DI FREQUENZA MISURE DELLA TENDENZA CENTRALE MISURE DELLA VARIABILITÀ

STATISTICA DESCRITTIVA Branca della statistica che studia i criteri di rilevazione, di classificazione e di sintesi delle informazioni relative ad una popolazione oggetto di studio. Raccoglie le informazioni sulla popolazione, o su una parte di essa (campione), in distribuzioni, e le sintetizza descrittivamente attraverso famiglie di indici: valori medi, indici di variabilità, indici di forma, rapporti statistici, relazioni statistiche. I risultati ottenuti in tal modo si possono definire certi, a meno di errori di misurazione, che essendo dovuti al caso, in media, si annullano per definizione. Ha come obiettivo quello di organizzare, riassumere e presentare i dati in modo ordinato; i suoi strumenti permettono quindi di sintetizzare i dati. (http://it.wikipedia.org/wiki/Statistica_descrittiva)

DISTRIBUZIONI DI FREQUENZA Supponiamo di voler studiare i punteggi degli esami di ammissione all’università di 5000 studenti. Questi punteggi sono i dati grezzi. Attraverso dei sunti statistici (p.e. calcolando la media di tutti i punteggi, oppure il punteggio min o max) possiamo ricordare più facilmente i dati e ragionarci sopra. Queste formulazioni che compendiano i dati costituiscono la cosiddetta statistica descrittiva.

DISTRIBUZIONI DI FREQUENZA Una distribuzione di frequenza permette di raggruppare i valori dei dati grezzi e di renderli comprensibili. Per raggruppare i dati bisogna: 1. suddividere in intervalli i dati 2. contare il numero di item che cade in ogni intervallo L’intervallo in cui sono raggruppati i punteggi è chiamato intervallo di classe. La decisione del numero di intervalli di classe in cui devono essere raggruppati i dati si basa sul giudizio dello sperimentatore

INTERVALLI DI CLASSE Punteggi grezzi degli esami di ammissione di 15 studenti Intervalli di classe N. persone per classe 50-59 1 60-69 3 70-79 7 80-89 3 90-99 1 84 75 91 61 67 72 87 79 83 77 51 69 Intervalli di classe=10

ISTOGRAMMA DI FREQUENZA BASI= intervalli di classe ALTEZZE= frequenze di classe L’istogramma di frequenza è una distribuzione di frequenza rappresentata graficamente.

POLIGONO DI FREQUENZA Il poligono di frequenza viene costruito segnando le frequenze delle classi al centro dell’intervallo di classe e segnando i punti ottenuti con linee rette Il poligono di frequenza fornisce le stesse informazioni dell’istogramma di frequenza, ma per mezzo di una serie di linee collegate invece che rettangoli

STATISTICA DESCRITTIVA DISTRIBUZIONI DI FREQUENZA MISURE DELLA TENDENZA CENTRALE MISURE DELLA VARIABILITÀ

MISURE DELLA TENDENZA CENTRALE Per misure della tendenza centrale si intende un punto rappresentativo sulla nostra scala, ovvero un punto centrale che sintetizza importanti informazioni sui dati. Si usano comunemente tre di tali misure: La MEDIA aritmetica si ottiene si ottiene sommando i punteggi e dividendoli per il loro numero La MEDIANA è il punteggio centrale, e si ottiene mettendo in ordine i punteggi e poi contando verso il centro a partire dalle due estremità. Se il numero di casi è pari, facciamo semplicemente la media dei due casi che si trovano vicino alla metà La MODA è il punteggio più frequente in una data distribuzione

Media ESEMPIO: 11, 20, 18, 20, 19, 18, 7, 10 (N=8) 15,37 La MEDIA aritmetica si ottiene sommando i punteggi e dividendoli per il loro numero. Si indica con M per i campioni. Quando ci si riferisce alla popolazione si indica con la lettere .

MEDIANA ESEMPIO: CASI DISPARI 11 26 27 10 35 44 45  10 11 26 27 35 44 45 La mediana in questo caso è rappresentata dal valore che occupa la quarta posizione (27) CASI PARI 11 17 45 35 13 44  11 13 17 35 44 45 La mediana in questo caso è data dalla media dei due casi che si trovano vicino le estremità (17+35)/2=26 La MEDIANA è il punteggio centrale, e si ottiene mettendo in ordine i punteggi e poi contando verso il centro a partire dalle due estremità. Se il numero di casi è pari, facciamo semplicemente la media dei due casi che si trovano vicino alla metà.

MODA La MODA è il punteggio più frequente in una data distribuzione ESEMPI: 11 26 27 10 26 44 45 26 11 26 27 26 44 45 Mo=26 10 26 44 10 22 44 45 8 11 26 44 9 45 45 Mo=44; 45 La MODA è il punteggio più frequente in una data distribuzione

MODA UNIMODALE BIMODALE Trimodale, Quadrimodale ecc…

DISTRIBUZIONI SIMMETRICHE In una distribuzione simmetrica (o normale), nella quale i punteggi sono distribuiti in maniera uguale su entrambi i lati rispetto al centro, la media, la mediana e la moda coincidono Mo Me M

SIMMETRICHE VS ASIMMETRICHE

DISTRIBUZIONI ASIMMETRICHE ESEMPIO: Supponiamo di voler analizzare gli orari di partenza di un treno del mattino. Il treno di solito parte in orario; qualche volta parte in ritardo, ma mai in anticipo. Per un treno il cui orario di partenza è alle 8.00, la registrazione di una settimana potrebbe essere la seguente: Media = 8.07 Mediana = 8.2 Moda = 8.00 Lunedì 8.0 Martedì 8.04 Mercoledì 8.02 Giovedì 8.19 Venerdì 8.22 Sabato 8.00 Domenica La distribuzione degli orari di partenza, nel nostro esempio, è asimmetrica a causa delle partenze ritardate; esse innalzano la media dell’ora di partenza, ma non hanno molta influenza sulla mediana o la moda.

DISTRIBUZIONE ASIMMETRICA POSITIVA Media 

DISTRIBUZIONE ASIMMETRICA NEGATIVA  Media Le distribuzioni asimmetriche sono caratterizzate generalmente dalla direzione delle code. Notate inoltre che media, mediana e moda, in una distribuzione asimmetrica non coincidono.

STATISTICA DESCRITTIVA DISTRIBUZIONI DI FREQUENZA MISURE DELLA TENDENZA CENTRALE MISURE DELLA VARIABILITÀ

MISURE DELLA VARIABILITÀ Limiti dei VALORI MEDI: MISURE DELLA VARIABILITÀ { NON FORNISCONO ALCUNA INFORMAZIONE SULLA DISTRIBUZIONE DEI DATI. GLI STESSI INDICI DI TENDENZA CENTRALE POSSONO AVERE DISTRIBUZIONI ASSAI DIVERSE MISURE DI DISPERSIONE DI PUNTEGGI DI UNA DISTRIBUZIONE ATTORNO ALLA MEDIA < Variabilità = Media + rappresentativa > Variabilità = Media - rappresentativa

MISURE DELLA VARIABILITÀ GLI STESSI INDICI DI TENDENZA CENTRALE (IN QUESTO CASO LA MEDIA) POSSONO AVERE DISTRIBUZIONI ASSAI DIVERSE

Campo Variazione = x max – x min CAMPO DI VARIAZIONE È il più semplice degli indici di variazione Si calcola facendo la differenza tra il dato più grande e il dato più piccolo: Campo Variazione = x max – x min ESEMPIO: Punteggi degli studenti della classe 1: 73, 74, 75, 76, 77 (media = 75) CV (77-73) = 4 Punteggi degli studenti della classe 2: 60, 65, 75, 85, 90 (media = 75) CV (90-60) = 30

VARIANZA Misura il grado di distanza dei punteggi di una distribuzione dalla media della distribuzione stessa. Per calcolarla bisogna: 1) Sottrarre i singoli punteggi dalla media della distribuzione così da ottenere la deviazione d di ogni punteggio dalla media. 2) Elevare al quadrato ogni deviazione per eliminare i punteggi negativi 3)Sommare tutte le deviazioni quadrate e dividere la sommatoria per il loro numero, in modo da ottenere la deviazione media = varianza

VARIANZA ESEMPIO: Punteggi degli studenti della classe 1: 73, 74, 75, 76, 77 (media = 75) Sottrarre i singoli punteggi dalla media della distribuzione così da ottenere la deviazione d di ogni punteggio dalla media. Elevare al quadrato ogni deviazione per eliminare i punteggi negativi (73-75) , (74-75) , (75-75) , (76-75) , (77-75)  d = 4, 1, 0, 1, 4 3) Sommare tutte le deviazioni quadrate e dividere la sommatoria per il loro numero, in modo da ottenere la deviazione media = varianza Dire che la classe 1 ha varianza pari a 2.0, non significa che i punteggi si scostino mediamente di due gradi dalla media. Piuttosto, 2.0 è la media dei quadrati degli scostamenti dei vari punteggi dalla media della distribuzione.

Limite della Varianza: Deviazione Standard LA VARIANZA È ESPRESSA IN UNITÀ DI MISURA AL QUADRATO! Si può invece ottenere una misura della variabilità espressa nelle unità di misura originarie (nel nostro caso, voti in un esame) semplicemente estraendo la radice quadrata dalla varianza. Questo indice è noto come DEVIAZIONE STANDARD * * In questa trattazione è stato utilizzato il simbolo σ. Tuttavia, nella letteratura scientifica , si utilizza la lettera s minuscola per indicare la deviazione standard di un campione, mentre σ indica la deviazione standard di una popolazione. Inoltre, per computare la deviazione standard σ di un campione, la somma di d elevato al quadrato si divide per N-1 piuttosto che per N. … e quindi, in riferimento all’esempio precedente:

SIGNIFICATIVITÀ DI UNA DIFFERENZA POPOLAZIONI E CAMPIONI DISTRIBUZIONE NORMALE QUANTO È RAPPRESENTATIVA LA MEDIA? SIGNIFICATIVITÀ DI UNA DIFFERENZA INFERENZA STATISTICA

POPOLAZIONI e CAMPIONI STUDIO DEL CAMPIONE TECNICHE STATISTICHE INFORMAZIONI SULLA POPOLAZIONE CAMPIONE POPOLAZIONE Età Errore campionatura ETÀ Inferenze Statistiche POPOLAZIONE ≠  CAMPIONE

POPOLAZIONI e CAMPIONI L’inferenza statistica riguarda il problema di trarre inferenze o giudizi su una caratteristica di una popolazione basandosi su informazioni ottenute da un campione di quella popolazione. Se i test statistici indicano che l’entità dell’effetto riscontrato nel campione è abbastanza grande (in rapporto alla stima dell’errore di campionatura), allora possiamo ritenere che l’effetto riscontrato nel campione vale per la popolazione in generale.

DISTRIBUZIONE NORMALE La curva normale o curva di Gauss è una distribuzione teorica (rappresentazione matematica di una distribuzione ideale) di punteggi in una popolazione. L’importanza di questa distribuzione è dovuta al fatto che molti dei fenomeni osservati si distribuiscono normalmente o con forme che si approssimano alla curva normale. Gran parte della statistica inferenziale si basa sulle proprietà di questa distribuzione.

DISTRIBUZIONE NORMALE (Vedi esempio slide 9) Esempio di distribuzione normale Intervalli di classe N. persone per classe 50-59 1 60-69 3 70-79 7 80-89 3 90-99 1

DISTRIBUZIONE NORMALE CURVA DI GAUSS Y La > parte degli item cade vicino alla media (punto più alto). La campana si appiattisce in corrispondenza dei punteggi molto alti o molto bassi. La curva di Gauss è una distribuzione teorica di punteggi di una popolazione.  x

DISTRIBUZIONE NORMALE Equazione della distribuzione normale: Si sostituisce nella formula il valore di x che ci interessa (ad esempio l’altezza o il punteggio ad un test di intelligenza) e troviamo la y, cioè la probabilità di ottenere quel valore in una distribuzione con una data media e ds. dove: =media della popolazione =d.s. della popolazione =costante (=3.14) e=costante (=2.718)

DISTRIBUZIONE NORMALE UNIMODALE (Moda=Media=Mediana) INFINITA: va da - a + SIMMETRICA rispetto alla Y massima (f(x)) ASINTOTICA: si avvicina all’asse delle X senza mai toccarlo È descritta da due soli parametri: media e deviazione standard.

DISTRIBUZIONE NORMALE L’area sottesa dall’intera curva è pari a 1, e rappresenta l’intera popolazione. Dato che la curva è simmetrica, l’area compresa tra - e  è uguale a .50 come quella compresa tra  e +. Y (frequenze f(x) di ciascun valore) .50 .50 - ∞  + ∞ (valori di X) X

DISTRIBUZIONE NORMALE Probabilità che hanno gli item appartenenti ad una popolazione normalmente distribuita di scostarsi dalla media, per ogni valore prestabilito. Numero dei Casi  = Deviazione Standard COSTANTI  +1= 0,341=34.1% della distribuzione  +2= 0,477=47.7% della distribuzione  +3= 0,498=49.8% della distribuzione

PUNTEGGI STANDARD Dev. Standard = misura della variabilità che consente di interpretare la distanza dalla media. Punteggio Standard = punteggio basato su un multiplo della dev. standard

PUNTEGGI STANDARD ESEMPIO: ESERCIZIO: Qual è il punteggio standard di uno studente che all’esame ha ottenuto 90 assumendo che la media della popolazione è di 70 e la deviazione standard di 10? Il segno del punteggio standard (+ o -) indica se il punteggio si colloca sopra o sotto la media, mentre il valore indica di quanto quel punteggio si discosta dalla m, in termini di dev.standard. ESERCIZIO: Qual è il punteggio standard di uno studente che all’esame ha ottenuto 53 assumendo che la media della popolazione è di 75 e la deviazione standard di 10?

QUANTO È RAPPRESENTATIVA LA MEDIA? MediaReale M Campione 3 M Campione1 M Campione 2 In che misura la media del campione è un predittore attendibile della media della popolazione? Diversi campioni casuali tratti dalla stessa popolazione hanno medie differenti, dando così luogo ad una distribuzione di medie campionarie intorno alla media reale della popolazione.

QUANTO È RAPPRESENTATIVA LA MEDIA? Le media campionarie sono dei valori numerici per i quali si può calcolare la deviazione standard. Questa deviazione standard viene chiamata errore standard della media (ES) e possiamo stimarla tramite la seguente formula: σ = dev.standard del campione n = numero dei casi da cui è stata calcolata la media di ogni campione

QUANTO È RAPPRESENTATIVA LA MEDIA? In base alla formula, all’aumentare del n dei campioni diminuisce l’ES (e viceversa): Il calcolo dell’errore standard della media ci consente di fare delle affermazioni precise circa il grado di incertezza nel nostro calcolo della media. Più numerosi sono i casi nel campione più si riduce l’incertezza. Perciò una media basata su un campione numeroso è più attendibile (ha più probabilità di essere vicina alla media reale della popolazione) di una media basata su un campione più piccolo. > n  < ES < n  > ES

SIGNIFICATIVITÀ DI UNA DIFFERENZA La differenza tra due medie campionarie è significativa (cioè riflette una reale differenza) oppure è semplicemente il risultato di un errore di campionatura? La significatività di una differenza dipende da: 1) entità della differenza calcolata 2) variabilità della distribuzione delle M messe a confronto D Differenza fra le medie ES della differenza fra le medie RAPPORTO CRITICO M = = D σ M

SIGNIFICATIVITÀ DI UNA DIFFERENZA Destrorsi- forza in kg della stretta di mano Mancini- forza in kg della stretta di mano Destrorsi- forza in kg della stretta di mano Mancini- forza in kg della stretta di mano La tabella riporta due esempi che confrontano la differenza tra le medie. La differenza tra le medie è sempre la stessa (8kg) sia a sinistra che a destra della tabella. Tuttavia, i dati della parte di destra indicano una differenza tra le medie più attendibile rispetto ai dati della parte di sinistra.

SIGNIFICATIVITÀ DI UNA DIFFERENZA 2 2 D σ M I II ESEMPIO: Supponiamo di voler confrontare i punteggi in un test di profitto nella lettura di bambini e bambine statunitensi di prima elementare. Una volta identificato un campione casuale sottoponiamo i bambini e le bambine ad un test. Supponiamo che il punteggio medio per i maschi fosse 70 con errore standard di 0.40, mentre il punteggio medio delle femmine di 72 con errore standard di 0,30. I dati campionari suggeriscono che

SIGNIFICATIVITÀ DI UNA DIFFERENZA le femmine ottengono punteggi migliori dei maschi; tuttavia, possiamo inferire che le cose starebbero così anche se avessimo esaminato tutti i bambini e le bambine degli Stati uniti? IL RAPPORTO CRITICO CI AIUTA A PRENDERE QUESTA DECISIONE. La differenza fra le medie osservate è statisticamente significativa dato che il rapporto critico in questo caso è superiore a 2. = Rapporto critico

SIGNIFICATIVITÀ DI UNA DIFFERENZA Una proprietà matematica della distribuzione normale è che il 95% dei valori è compreso tra la media +/- 1,96 deviazioni standard (approssimativamente +/-2 dev.st). Perciò, affinché la differenza tra le medie possa essere considerata significativa un rapporto critico dovrebbe avere un valore uguale o maggiore a 2.0 (possiamo trattare il rapp. critico come un punteggio standard dato che è semplicemente la differenza tra due medie, espressa come multiplo del suo errore standard).

SIGNIFICATIVITÀ DI UNA DIFFERENZA P≤ 0.05 (Rapporto critico maggiore o uguale a 2) Per condurre un test statistico è importante fissare il livello di significatività; In psicologia solitamente (si tratta di una regola arbitraria!) una serie di dati viene detta statisticamente significativa se il suo valore p (p = probabilità) è minore o uguale a 0,05 (ovvero il 5%). 2,5% (P=0,025) 2,5% (P=0,025)

SIGNIFICATIVITÀ DI UNA DIFFERENZA Il livello di significatività 5% viene adottato frequentemente in quanto si ritiene che il rapporto 1/20 (cioè 0.05) sia sufficientemente piccolo da poter concludere che sia «piuttosto improbabile» che la differenza osservata possa esser dovuta al semplice caso. In effetti, la differenza potrebbe essere dovuta al caso, ma lo sarà 1 volta su 20. Non è sempre necessario usare il livello 5%; in alcuni esperimenti può essere appropriato un livello maggiore di significatività (ad esempio un livello di significatività dell’1%).

COEFFICIENTE DI CORRELAZIONE CORRELAZIONE = variazione concomitante di coppie di misure. COEFFICIENTE DI CORRELAZIONE = permette di stabilire il grado di relazione. Esempi: Autostima e Autoefficacia Ansia e Depressione Età e Peso

COEFFICIENTE DI CORRELAZIONE Metodo prodotto-momento : Metodo più frequentemente utilizzato per calcolare il coefficiente di correlazione. Produce un indice che viene convenzionalmente indicato con la lettera r. Consente di fare previsioni, verificare teorie, verificare l’attendibilità dei test. Il grado di attendibilità di un test indica il livello di correlazione esistente tra le distribuzioni di punteggi ottenuti dagli stessi soggetti nello stesso test somministrato loro in tempi diversi o in risposta a versioni equivalenti dello stesso test.

COEFFICIENTE DI CORRELAZIONE Formula per calcolare il coefficiente di correlazione prodotto momento: x y Dove: x = misura 1 y = misura 2 dx; dy = scarti di ogni punteggio dalla sua media N = numero delle misurazioni abbinate σ ; σ = deviazioni standard delle distribuzioni dei punteggi x e y x y

COEFFICIENTE DI CORRELAZIONE Qual è la correlazione tra i punteggi x (test di ammissione) e i punteggi y( voti del primo anno di università)? ESEMPIO: Studente punt.x punt.y (dx) (dy) (dx)(dy) Adam 71 39 6 9 54 Bill 67 27 2 -3 -6 Charles 65 33 3 David 63 30 -2 Edward 59 21 -9 SOMMA 325 150 102 MEDIA x y x y

COEFFICIENTE DI CORRELAZIONE IL COEFFICIENTE DI CORRELAZIONE PRODOTTO MOMENTO VARIA TRA: -1<= r <= +1 r = +1 correlazione massima positiva (perfetta) r= 0 correlazione assente r = -1 correlazione massima negativa r > 0 correlazione presente : all’aumentare di x aumenta y r < 0 correlazione presente : all’aumentare di x diminuisce y

COEFFICIENTE DI CORRELAZIONE ADDENSAMENTO DISPERSIONE punteggi y punteggi x La correlazione misura l’addensamento/dispersione intorno alla retta (linearità nella covarianza) . Ogni punto rappresenta i punteggi x e y.

COEFFICIENTE DI CORRELAZIONE Direzione della relazione Correlazione positiva: r>0 Voto di laurea all’aumentare di x aumenta y Punteggio test d’ingresso Correlazione negativa: r<0 Aspettativa di vita all’aumentare di x diminuisce y Povertà

COEFFICIENTE DI CORRELAZIONE Nota Bene:  r non implica un rapporto di causa-effetto! Quando due gruppi di punteggi correlano fra loro possiamo sospettare che abbiano in comune alcuni fattori causali ma non possiamo concludere che uno di essi sia causa dell’altro. Bisogna perciò evitare di dare un’interpretazione causale al coefficiente di correlazione. È tuttavia possibile che quando due variabili sono correlate, una possa essere la causa dell’altra.