Accenni di analisi monovariata e bivariata

Slides:



Advertisements
Presentazioni simili
LA MEDIA STATISTICA di Zappa Giacomo.
Advertisements

ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
SCALA INTERVALLO / A RAPPORTO
LA VARIABILITA’ IV lezione di Statistica Medica.
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Passo 1: trasformare tutte le percentuali in frequenze (senza sapere la numerosità sulla quale sono state calcolate, non si può fare il confronto tra %)
STATISTICA DESCRITTIVA
Il chi quadro indica la misura in cui le
“Teoria e metodi della ricerca sociale e organizzativa”
Descrizione dei dati Metodi di descrizione dei dati
Gli errori nell’analisi statistica
Progetto Pilota 2 Lettura e interpretazione dei risultati
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
Analisi della varianza (a una via)
L’analisi Bivariata Studia la relazione fra coppie di variabili.
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 7: Test di significatività
STATISTICA a.a LA STATISTICA INFERENZIALE
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Misurazione Le osservazioni si esprimono in forma di misurazioni
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Un buon latinista è anche un bravo matematico? I.S. Artemisia Gentileschi - NAPOLI Convegno finale Progetto Lauree Scientifiche – Matematica Università
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Il piano fattoriale a due fattori
Le distribuzioni campionarie
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
L’analisi monovariata
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Gli indici di dispersione
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Martina Serafini Martina Prandi
Come analizzare una tabella di contingenza quando il valore del chi quadrato è significativo Analisi dei residui con un esempio reale: Studenti universitari.
3 June Biostatistica Biostatitistica= Statistica per scienze Biostatitistica= Statistica per scienze biologiche e sanitarie. biologiche e sanitarie.
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
STATISTICHE DESCRITTIVE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
“Teoria e metodi della ricerca sociale e organizzativa”
UNIVERSITA’ DEGLI STUDI DI PERUGIA
L’analisi bivariata L’analisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: Stabilire se date due variabili (x.
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
ARGOMENTI DELLA LEZIONE  Le distribuzioni di frequenza in classi  Le distribuzioni di frequenza in classi  Le tabelle di frequenza  La rappresentazione.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Accenni di analisi monovariata e bivariata
Transcript della presentazione:

Accenni di analisi monovariata e bivariata

ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle relazioni con le altre variabili DISTRIBUZIONE DI FREQUENZA: è l’ordinamento tabulare dei dati raccolti e le frequenze corrispondenti

Verifiche da fare in sede di analisi monovariata: Verifica di PLAUSIBILITÀ: controllo nella matrice dei “valori selvaggi” AGGREGAZIONE DELLE MODALITÀ, secondo due criteri: - equilibrio della distribuzione - affinità semantica

CONTROLLI SUI DATI: controlli di plausibilità; controllo in matrice dei valori selvaggi; controlli di congruenza; valori mancanti; ponderazione EQUILIBRIO DELLA DISTRIBUZIONE Le modalità si possono raggruppare secondo: I valori che assume la distribuzione L’affinità semantica (non si possono assommare variabili con significato divergente)

Valori mancanti Distinguiamo 4 situazioni di valori mancanti: Non sa: il soggetto non sa rispondere Non applicabile: il soggetto non è tenuto a rispondere Non risponde: il soggetto rifiuta di rispondere Valore implausibile: si registra un valore non compreso nel codice Soltanto le ultime due costituiscono realmente dei valori mancanti

Valori selvaggi

Ponderazione Licenza elementare 29,5 25,3 29,5/25,3=1,17 Licenza media % nella popolazione % nel campione Pesi Licenza elementare 29,5 25,3 29,5/25,3=1,17 Licenza media 42,4 40,8 42,4/40,8= 1,04 Diploma 20,7 23,4 20,7/23,4= 0,88 Laurea 7,4 10,5 7,4/10,5= 0,70

15-17 32% 18-21 16% 22-25 15% 26-29 37% 48% LICEO CLASSICO 15,6% 52% 15-17 32% 18-21 16% 22-25 15% 26-29 37% LICEO CLASSICO 15,6% LICEO SCIENTIFICO 19,7% ALTRO LICEO 6,9% IST. TECNICO 33,5% IST. PROFESSIONALE 8,1% ALTRO 16,2% 48% 52% 42,2% 41,6%

Misure e test applicabili in sede di analisi monovariata Media aritmetica: somma dei valori, divisi per il loro numero (solo se la variabile è cardinale) Varianza: in una distribuzione, è la distanza dei singoli valori dal valore medio. Se la varianza è alta significa che i singoli valori sono molto diversi tra loro

Mediana: è il valore di una distribuzione che la divide in due parti Moda: è la modalità della distribuzione che ha la frequenza maggiore, cioè il maggior numero di casi (se la variabile è nominale è l’unica misura di tendenza centrale calcolabile)

Media, mediana, moda X1 + X2 + X3 +… Xn X = N Serie: 18, 20, 20, 20, 21, 23, 60 Media: Mediana: Moda:

Distribuzione di frequenza della variabile ordinale “auto-collocazione sulla scala sinistra-destra” % % cum. Estrema sinistra 52 2,2 Sinistra 531 22,0 24,2 Centro-sinistra 742 30,8 55,0 Centro 313 13,0 68,0 Centro-destra 505 20,9 88,9 Destra 243 10,1 99,0 Estrema destra 24 1,0 100 Totale 2.410

ANALISI BIVARIATA Studia le relazioni che possono esistere tra 2 variabili. Ha come prodotto una tabella di contingenza. Se riporto percentuali di riga: totale marginale di riga = a 100 Se riporto percentuali di colonna: totali marginali di colonna = a 100 Si scelgono le percentuali da riportare sulla base di quella che consideriamo variabile indipendente.

Il numero delle categorie non deve essere troppo elevato FREQUENZA OSSERVATA: è il numero dei dati di una cella effettivamente rilevati FREQUENZA ATTESA: è la frequenza teorica che si dovrebbe ottenere sulla base dei totali marginali, se tra le due variabili considerate non esistesse alcuna associazione. FREQ. ATTESA = Prodotto dei totali marginali Totale dei casi

Se la frequenza osservata è molto diversa rispetto alla freq Se la frequenza osservata è molto diversa rispetto alla freq. attesa, allora c’è un’associazione tra le due variabili. I risultati sono affidabili e statisticamente significativi soltanto se le frequenze attese sono alte e le freq. osservate basse. Chi-quadrato: testa la significatività della relazione tra 2 variabili; si basa sulla differenza tra freq. osservate e freq. attese

Frequenze attese/Frequenze osservate

COME VERIFICARE LA RELAZIONE TRA DUE VARIABILI? Chi-quadrato: testa la significatività della relazione tra 2 variabili; si basa sulla differenza tra frequenze osservate (fo) e frequenze attese (fe) (fo─ fe)2 χ2 = Σ fe

Test statistico di verifica delle ipotesi: In realtà non verifica (= dimostrare che è vera) un’ipotesi, ma può solo arrivare a falsificarla (= dimostrare che è falsa) Il chi quadro,quindi, può arrivare a dimostrare che l’ipotesi nulla (secondo la quale non esiste una relazione fra la variabili) è falsa

Esercizi A. Calcola la MEDIANA della serie di cifre che segue: Età: 15, 37, 86, 36, 19, 39, 55, 89, 16, 25, 41, 70, 67, 12 Svolgimento: 12, 15, 16, 19, 25, 36, 37, 39, 41, 55, 67, 70, 86, 89 Tra 37 e 39   B. Calcola la VARIANZA per la serie di numeri sottoelencata: Voti riportati agli esami di sociologia: 23, 21, 30, 18, 22, 29 Calcolo la media: 23,8 Calcolo gli scarti: 0,8 + 2,8 + 6,2 + 5,8 + 1,8 + 5,2 Somma di ogni scarto elevato al quadrato = 0,6 +7,8 +38,4+33,6+3,2+27,0=110,6 Calcolo la deviazione standard (è la radice quadrata della somma degli scarti al quadrato, divisa per il n° dei casi): √ 110,6/6 = 4,29 Ottengo la varianza (è il quadrato della dev. standard) = 18,4

C. Calcola la VARIANZA per la serie di numeri sottoelencata: Voti riportati agli esami di metodologia: 27, 28, 30, 27, 29, 30 Svolgimento: Calcolo la media: 28,5 Calcolo gli scarti: 1,5 + 0,5 + 1,5 + 1,5 + 0,5 + 1,5 Somma di ogni scarto elevato al quadrato 2,25+0,25+2,25+2,25+0,25+2,25= 9,4 Calcolo la deviazione standard: √ 9,4/6 = 1,2 Ottengo la varianza (è il quadrato della dev. standard) = 1,5

Svolgimento: Freq. osservata: 142 Freq. Attesa: 396 x 231/ 819 = 111,7 Freq. osservata: 89 Freq. Attesa: 423 x 231/ 819 = 119,3   Freq. osservata: 254 Freq. Attesa: 396 x 588/ 819 = 284,3 Freq. osservata: 334 Freq. Attesa: 423 x 588/ 819 = 303,7 χ2 = Σ (fo─ fe)2 / fe [(142 ─ 111,7)2 / 111,7 ] + [(89 ─ 119,3) 2 / 119,3 ] + [(254 ─ 284,3) 2 /284,3 ] + [(334 ─ 303,7) 2 / 303,7 ] = 22,1 Gradi di libertà: (n° righe – 1) x (n° colonne – 1) (2-1) x (2-1) = 1 Verifico il valore del chi-quadrato nella  tavola di distribuzione e osservo che è < 0,0001 La relazione tra le due variabili esaminate è significativa (l’ipotesi nulla – secondo la quale non esiste una relazione fra la variabili – è falsa)