La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LEZIONE A.1 Dai fenomeni alle variabili TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.

Presentazioni simili


Presentazione sul tema: "LEZIONE A.1 Dai fenomeni alle variabili TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli."— Transcript della presentazione:

1 LEZIONE A.1 Dai fenomeni alle variabili TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

2 In questa lezione.. In questa lezione faremo una lunghissima cavalcata  Dalla rilevazione dei dati (protocollo di rilevazione)  Alla ricodifica sotto forma di matrice dei dati  Alla classificazione di ogni carattere in forma di variabile Faremo anche attenzione a due problemi operativi che si pongono lungo la strada:  Quello della arbitrarietà nella riclassificazione per intervalli  Quello della efficacia comparativa delle frequenze relative Alla fine saremo pronti per analizzare la variabilità. Almeno speriamo!

3 Rilevare le informazioni La statistica mira al suo obiettivo a partire dall’osservazione della realtà fenomenica L’osservazione può riguardare u- nità di analisi differenti, secondo la forma della rilevazione:  Esperimenti (ripetuti, nume- rabili, indefiniti)  Rilevazioni quasi-sperimen- tali (non ripetibili, già date) Preliminare quindi all’analisi statistica è la rilevazione delle informazioni su ciascuna unità di analisi (o esperimento)

4 Scripts & frames Un esempio Due classi di liceo, A e B, si ritrovano nella stessa sera e nella stessa trattoria a dieci anni dalla maturità. Ogni compagno di scuola si confronta con gli ‘scripts’ (copioni, destini) degli altri, cioè con la trama di eventi biografici che hanno punteggiato e contraddistinto le vite di ciascuno. Ma gli altri clienti della trattoria vorrebbero identificare in modo distinto il ‘frame’ delle due classi (Di dove venite? Eravate bravi? E ora che fate? E in amore?), e raccolgono quattro informazioni per ogni individuo delle due classi, facendo girare e compilare foglietti fatti come questa scheda: Il primo passo è la costruzione del protocollo di rilevazione

5 Il ‘protocollo di rilevazione’: passo numero uno Nome: ………………………………Classe A B G Sesso Maschio: Femmina: E Performance economica: Entrate mensili in migliaia di euro ____,__ S Titolo di studio: D : Solo diplomato L : Laureato P : Post-laurea U Carriera ‘sentimentale’: Quanti amori?  0   1   2   3   4+  Scheda per la rilevazione

6 Ogni ‘ricerca tematica’, un protocollo Ogni analisi statistica di un collettivo richiede, almeno implicitamente, la formulazione di un protocollo di rilevazione, per avere le idee chiare su  Chi o cosa è l’UNITA’ DI ANALISI  Quale/i sono i CARATTERI analizzati UNITA’: organizzazioni non profit di una provincia CARATTERI: numero volontari, attività, figura giuridica, … UNITA’: pazienti ambulatorio di analisi CARATTERI: diversi test clinici Ma non è necessario che le informazioni provengano da una rilevazione frutto di un ‘disegno dell’esperimento’ completamente organizzato. Due esempi Un adeguato ‘disegno dell’analisi’ (quindi anche un ‘protocollo di ri- levazione’) può essere costruito anche ex-post, cioè a partire da informazioni preesistenti all’interesse di ricerca. Due esempi:

7 Sintetizzare le informazioni Ma proseguiamo col nostro esempio. Se le due classi A e B sono composte rispettivamente di 10 (classe A) e 15 (classe B) persone alla fine mi trovo in mano 25 schede di rilevazione. So insomma tutto sui singoli, ma non so cogliere la struttura del collettivo, perché le informazioni sono troppo disperse! Il primo esercizio mentale della Statistica richiede operazioni preliminari di SINTESI. Il secondo passo nella procedura di sintesi delle informazioni raccolte consiste nel costruire la… Fonte: annuari Istat. Unità’: individui o unità territoriali superiori. Caratteri: istruzione, occupazione, residenza… Fonte: dati di sondaggi sulle intenzioni di voto. Unità: diverse società demoscopiche. Caratteri: previsioni di voto e variazioni nel tempo dei diversi partiti… Due esempi

8 La ricodifica dei dati: passo numero due Nella classe A ci sono dieci unità CognomeNomeGSUE Bassi MarioMD34,5 Campelli GuidoML02,2 Lucioni FabioMP23,7 Parisi PaoloMD06,8 Gatti LuisaFL44,7 Gennai MaraFL14,2 Minoli EsterFP31,5 Premoli SaraFP35,0 Tacchi LauraFL25,2 Viesti RosariaFL27,2 Le informazioni sulle quattro caratteristiche di ogni unità di analisi (individuo) sono ripor- tate per riga. Le informazioni sui dieci indi- vidui relativamente a una sin- gola caratteristica sono ripor- tate per colonna La matrice ha quindi n=5 colonne (inclusa quella coi nomi) e N=10 righe. Ogni ri- ga identifica una unità di a- nalisi, ogni colonna un ca- rattere.

9 Dal protocollo rilevazione alla matrice dati Un Ca X1X1 X2X2 …...XiXi ……XnXn 1 2 … J X ij … … N La matrice, di dimensione ret- tangolare (N x n), è la forma con cui sono ‘ricodificati’ i dati di input nei più noti ‘fogli elettronici’ di elaborazione sta- tistica dei dati (Excel, SPSS, SAS). Il passaggio dal protocollo di rilevazione alla matrice dati si definisce ‘ricodifica’. Nella generica casella X ij sta la misura del carattere X i rilevata nell’unità di analisi (individuo) j.

10 Ogni sintesi comporta perdita di informazioni

11 La riclassificazione dei dati: passo numero tre Nella classe A ci sono dieci unità CognomeNomeGSUE Bassi MarioMD34,5 Campelli GuidoML02,2 Lucioni FabioMP23,7 Parisi PaoloMD06,8 Gatti LuisaFL44,7 Gennai MaraFL14,2 Minoli EsterFP31,5 Premoli SaraFP35,0 Tacchi LauraFL25,2 Viesti RosariaFL27,2 Già nel II° passo di sintesi ave- vamo oscurato alcune informa- zioni: per esempio i nomi Ma ora facciamo un passo avanti e concentriamoci su un solo carattere. Per esempio il titolo di studio. Oscuriamo tutte le altre colonne e concentriamo l’analisi su una sola dimensione. In questo primo volume e- samineremo gli strumenti di ANALISI STATISTICA MO- NOVARIATA

12 Dalla matrice dati alla serie ordinata Trascriviamo allora ‘in orizzontale’ le informazioni riportate nella colonna S dei titoli di studio: S = {D, L, P, D, L, L, P, P, L, L} In generale, la successione di modalità osservate di un carattere, rispet- tando l’ordine di rilevazione, si dice SERIE ORDINATA: X = {x 1, x 2, x 3,.., x N-2, x N-1, xN}xN} Le informazioni sono ancora esposte per esteso. Se la base-dati fosse fatta non di 10 individui ma di mille ‘unità’, avremmo bisogno di uno sforzo ulteriore di sintesi. E’ ciò che facciamo. Ma attenzione. Con la sintesi ulteriore perderemo l’informazione del- l’ordine della serie. E in certi casi (per es. le ‘serie storiche’) l’ordine (l’unità di tempo di rilevazione) è fondamentale.

13 Dalla matrice dati alla variabile statistica La formazione della Variabile Sta- tistica a partire da una serie ordi- nata implica queste operazioni in sequenza:  Individuazione di tutte le k moda- lità (x i ) con cui si presenta il carat- tere  Loro elencazione in ordine cre- scente, se si tratta di misure ordinabili  Riclassificazione delle N occor- renze entro le k possibili modalità  Infine, calcolo del numero di oc- correnze ripetute per ogni moda- lità (n i ). Classificazione del carattere S: Modalità (x i )Occorrenze (n i ) DXX 2 LXXXXX 5 PXXX 3 Classificazione del carattere U: Modalità (x i )Occorrenze (n i ) 0XX 2 1X 1 2XXX 3 3XXX 3 4X 1

14 La variabile statistica Variabile statisticaordinata univocamente Variabile statistica è una successione ordinata di coppie di valori {x i, n i } univocamente associati, relativi a un ca- rattere osservato in una popolazione x 1 x 2 x 3.. x i.. x k X = n 1 n 2 n 3.. n i.. n k moda- lità Il primo dei due parametri {x i, per i=1,2,..k} indica le diverse moda- lità che il carattere può assumere. numerosità Il secondo {n i, per i=1,2,..k} indica la corrispondente numerosità con cui ogni modalità i è stata osservata non ne- cessariamente viceversa Ad ogni modalità corrisponde una e una sola numerosità, ma non ne- cessariamente viceversa (per esempio alla numerosità 3 corrispondono due distinte 2 e 3 della variabile U)!

15 Classificazione per intervalli Ma supponiamo ora di riportare la serie ordinata (trascritta per co- modità in ordine crescente) delle modalità assunte dal carattere E (entrate mensili in migliaia di euro): S = {1,5; 2,2; 3,7; 4,2; 4,5; 4,7; 5,0; 5,2; 6,8; 7,2} Qui c’è poco da classificare!! Ogni modalità si osserva una e una sola volta, per il dettaglio della misura e le poche osservazioni. intervalli di modalità possibili Per potere sintetizzare le nostre informazioni, e renderle più leggibili, occorre individuare non le modalità, ma degli intervalli di modalità possibili, e catalogare le osservazioni entro di essi. intervalli chiusi a destra o a sinistra se: Parleremo di intervalli chiusi a destra o a sinistra se:  x k

16 Conteggio stem & leaf Ricostruiamo la serie statistica dei redditi dei 25 compagni di classe Soluzione: conteggiamo tutte le osservazioni ordinandole secondo l’unità più grande. Riportiamo ogni osservazione come una fo- glia (leaf) al posto giusto lungo lo stelo (stem) 1:1,2; 1,5; 1,5 2:2,2; 2,4; 2,6; 2,9 3:3,2; 3,4; 3,5; 3,6; 3,7 4:4,2; 4,2; 4,5; 4,5; 4,7 5:5,0; 5,2; 5,2 6:6,8; 6,8 7:7,2; 7,4; 7,6 Classificazione di E in 7 classi: Modalità (x i )(n i ) 1 l l l l l l l- 83

17 Attenzione alle classi! Classificazione di E in 3 classi: Modalità (x i )Occorrenze (n i ) 0 -l 3XX 2 3 –l 6XXXXXX 6 6 –l 8XX 2 Classificazione di E in 4 classi: Modalità (x i )Occorrenze (n i ) 0 -l 2X 1 2 -l 4XX 2 4 -l 6XXXXX 5 6 -l 8XX 2 La scelta degli estremi degli in- tervalli è, entro certi limiti, de- mandata all’arbitrio del ricer- catore. equivalenti Certo, si possono costruire inter- valli equivalenti (uguale am- piezza), ma anche intervalli di ampiezza crescente col crescere delle modalità, o in altri modi an- cora, a fantasia. I commenti del giorno dopo le elezioni sono ottimi esempi di scelta delle classi (di partiti) in funzione di ciò che si desidera mettere in evidenza (è vero, ha perso il mio partito, ma ha vinto la mia coalizione..).

18 Equivalenti e equifrequenti Dalla serie dei redditi eliminiamo ora il più alto (7,6) e proviamo a vedere cosa succede se classifichiamo i dati in due modi differenti: Costruendo 4 classi equivalenti (uguale ampiezza) Costruendo 4 classi equifrequenti (uguale numerosità) 1,2; 1,5; 1,5 2,2; 2,4; 2,6; 2,9 3,2; 3,4; 3,5; 3,6; 3,7 4,2; 4,2; 4,5; 4,5; 4,7 5,0; 5,2; 5,2 6,8; 6,8 7,2; 7,4 4 classi equivalenti: Modalità (x i )(n i ) 1,1 l- 2,7 6 2,7 l- 4,3 8 4,3 l- 5,96 5,9 l- 7,54 4 classi equifrequenti: Modalità (x i )(n i ) 1,1 l- 2,7 6 2,7 l- 4,0 6 4,0 l- 5,2 6 5,2 l- 7,5 6

19 Le modalità Torniamo alle modalità. Esse devono possedere tre qualità:  Le modalità devono essere disgiunte  Le modalità devono essere disgiunte (senza sovrapposizioni)  Le modalità devono essere esaustive  Le modalità devono essere esaustive (devono coprire tutto il venta- glio delle possibilità) sempre in ordine crescente (se possibile)  Inoltre accettiamo la convenzione di riportarle sempre in ordine crescente (se possibile). Degli esempi, buoni e non: ETA’ in anni compiuti: ETA’ in an- ni compiuti: 15|-20 20|-25 25|-30 ETA’ in anni compiuti: 15|-19 20|-24 25|-29 Ripartiz. Geog.Italia Nord Centro Sud Ripartiz. Geog.Italia CentroNord CentroSud Sud+Isole Non disgiunte (20 e 25enni) O.K.Non esaustive (19 e 24enni) Non esaustive (isole) Non disgiunte (es. Umbria?)

20 Numerosità e indice di sommatoria Le numerosità (o frequenze assolute) specifiche n i (relative alle modalità i) sono il risultato di un conteggio: sono quindi sempre numeri interi. Attenzione: le modalità x i non si sommano mai insieme! Invece le n i si sommano tra loro, e la somma deve essere pari alla numerosità totale N. CONDIZIONE DI NORMALITA’: Somma delle numerosità specifiche = Numerosità totale  Se Somma > N le modalità potrebbero non essere disgiunte  Se Somma < N le modalità potrebbero non essere esaustive L’espressione “Somma delle numerosità specifiche n i per i che va da i a k” (k=numero delle modalità) è lunga. Si può scrivere in modo più compatto? Con qualche passaggio ‘stenografico’, simbolizzando con S (e meglio an- cora con la lettera greca corrispondente ) l’operazione di somma: Si scrive così e si legge: “somma delle n con i, per i che va da 1 a k, è pari a N”

21 Finalmente, qualche confronto Dal protocollo di rilevazione, per ricodifica, alla matrice dati e dalla matrice dati, per riclassificazione, alla variabile statistica, abbiamo via via sintetizzato le nostre informazioni. Ora possiamo cominciare a usare i dati per qualche utile esercizio di lettura. Il primo esercizio è quello del confronto del peso della stessa modalità in diverse popolazioni. ESEMPIO: nella classe A (composta di 10 individui) i maschi sono 4. Nella classe B (15 individui) sono 5. In assoluto quindi non v’è dubbio: ci sono più maschi in B. Ma nelle dinamiche di classe 5 maschi su 15 erano solo il 30%, 4 su 10 erano il 40%! tenendo sotto controllo l’ampiezza Il confronto tra due di- stribuzioni di frequenza dello stesso carattere (M/F) in popolazioni di diversa ampiezza è pos- sibile solo tenendo sotto controllo l’ampiezza (fattore di disturbo).

22 Le frequenze (relative) Chiamiamo frequenze (o frequenze relative) specifiche i rapporti tra le corrispondenti numerosità specifiche e la numerosità totale da cui la condizione di normalità Le frequenze sono dunque delle frazioni, comprese tra 0 e 1. Noi tendiamo a leggerle come percentuali, ‘fatto cento il totale’. Porre pari a 1 (o 100) N è un criterio per rendere comparabili nu- merosità diverse, depurandole dell’effetto distorsivo della dimensione delle rispettive popolazioni. Ma non è un criterio universale. John Graunt, agli albori degli studi quantitativi (1665) poneva pari a 1 il numeratore, e avrebbe detto che nella classe A c’era un maschio ogni 3, e in B uno ogni 2,5. Un criterio vale l’altro!!

23 Imparare a leggere (e a usare) le frequenze Il 25 luglio 2002 un quotidiano di interesse nazionale in quarta pagina illustra un reportage sui risparmi degli italiani con questa tabella: Le attività finanziarie delle famiglie Su 100 famiglie italiane…  53 hanno solo depositi  10 hanno depositi e titoli di Stato  6 hanno depositi e altri titoli  6 hanno depositi, titoli di St.e altro  15 non hanno alcuna attività finanz Sapreste dire:  Che cosa non torna nella tabella?  Che distorsioni comporta nella interpretazione dei dati?  Quale potrebbe essere la o le spiegazioni (ammesse fino a 3 risposte) Se avete risposto giusto almeno a due domande, complimenti! Dopo sole due lezioni capite di Stati- stica più di molti illustri giornalisti.


Scaricare ppt "LEZIONE A.1 Dai fenomeni alle variabili TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli."

Presentazioni simili


Annunci Google