LEZIONE A.1 Dai fenomeni alle variabili TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Modulo 4 – Seconda Parte Foglio Elettronico
____________________
Rappresentazione tabellare dei dati
Variabili casuali a più dimensioni
Progetto Pilota 2 Lettura e interpretazione dei risultati
Elementi di STATISTICA DESCRITTIVA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
STATISTICA DESCRITTIVA
Le analisi per singolo item
La matrice dei dati E’ possibile organizzare i dati in forma di matrice se: l’unità di analisi è unica (ad esempio non si possono includere individui e.
Cap. 2 Definizioni e notazione (simboli) di base
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi delle corrispondenze
Statistica sociale Modulo A
Misurazione Le osservazioni si esprimono in forma di misurazioni
Cai Lin Lin Michela & Guidetti Emanuela presentano:
Il Cerca – costellazioni
Geometria analitica: dalle funzioni alle rette Cliccate su F5 per vedere meglio e poi ovunque per andare avanti.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
I principali tipi di grafici
Costruire una tabella pivot che riepiloghi il totale del fatturato di ogni agente per categorie di vendita, mese per mese. Per inserire una tabella pivot.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Statistica La statistica è
Indici di posizione Francesco Michele Mortati - Istat.
Variabili temporali Analisi statistica
La statistica.
Nucleo: Dati e previsioni
Lezione B.10 Regressione e inferenza: il modello lineare
LEZIONE A.2 La produzione del dato TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.
Accenni di analisi monovariata e bivariata
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
ORIENTAMENTO CONSAPEVOLE
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
STATISTICHE DESCRITTIVE
La variabile casuale (v.c.) è un modello matematico in grado di interpretare gli esperimenti casuali. Infatti gli eventi elementari  che compongono lo.
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
Istituto Comprensivo Rignano-Incisa Tirocinante TFA: G. Giuliani
UNIVERSITA’ DEGLI STUDI DI PERUGIA
A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
NB: La lettura delle slide è solo un supporto allo studio che non sostituisce i testi di esame Metodi e tecniche della ricerca sociale - Prof. Flavio Ceravolo.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Integrali definiti I parte
SISTEMI DI GIUDIZIO.
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
Forma normale delle equazioni di 2° grado Definizione. Un'equazione di secondo grado è in forma normale se si presenta nella forma Dove sono numeri.
analisi bidimensionale #2
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
16) STATISTICA pag.22. Frequenze frequenza assoluta (o frequenza): numero che esprime quante volte un certo valore compare in una rilevazione statistica.
Analisi matematica Introduzione ai limiti
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Statistica le medie di posizione alessandro polli facoltà di scienze politiche, sociologia, comunicazione 9 marzo 2015.
Triennio 1Preparazione giochi di Archimede - Triennio.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Ipotesi operative TeoriaEsperienza diretta e/o personale Quesito Piano esecutivo Scelta popolazione Scelta strumenti Scelta metodi statistici Discussione.
Logica Lezione 8, DISTRIBUIRE COMPITO 1.
1 Statistica per l’economia e l’impresa Capitolo 8 Numeri indice di prezzi e quantità.
La funzione CASUALE. Gli istogrammi.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
ARGOMENTI DELLA LEZIONE  Le distribuzioni di frequenza in classi  Le distribuzioni di frequenza in classi  Le tabelle di frequenza  La rappresentazione.
Analisi delle osservazioni
Presentare i dati Corso in Fonti, metodi e strumenti per l’analisi dei flussi turistici A.A Prof.ssa Barbara Baldazzi Corso di Laurea PROGEST.
Algebra e logica Ragionare, simbolizzare, rappresentare.
Transcript della presentazione:

LEZIONE A.1 Dai fenomeni alle variabili TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

In questa lezione.. In questa lezione faremo una lunghissima cavalcata  Dalla rilevazione dei dati (protocollo di rilevazione)  Alla ricodifica sotto forma di matrice dei dati  Alla classificazione di ogni carattere in forma di variabile Faremo anche attenzione a due problemi operativi che si pongono lungo la strada:  Quello della arbitrarietà nella riclassificazione per intervalli  Quello della efficacia comparativa delle frequenze relative Alla fine saremo pronti per analizzare la variabilità. Almeno speriamo!

Rilevare le informazioni La statistica mira al suo obiettivo a partire dall’osservazione della realtà fenomenica L’osservazione può riguardare u- nità di analisi differenti, secondo la forma della rilevazione:  Esperimenti (ripetuti, nume- rabili, indefiniti)  Rilevazioni quasi-sperimen- tali (non ripetibili, già date) Preliminare quindi all’analisi statistica è la rilevazione delle informazioni su ciascuna unità di analisi (o esperimento)

Scripts & frames Un esempio Due classi di liceo, A e B, si ritrovano nella stessa sera e nella stessa trattoria a dieci anni dalla maturità. Ogni compagno di scuola si confronta con gli ‘scripts’ (copioni, destini) degli altri, cioè con la trama di eventi biografici che hanno punteggiato e contraddistinto le vite di ciascuno. Ma gli altri clienti della trattoria vorrebbero identificare in modo distinto il ‘frame’ delle due classi (Di dove venite? Eravate bravi? E ora che fate? E in amore?), e raccolgono quattro informazioni per ogni individuo delle due classi, facendo girare e compilare foglietti fatti come questa scheda: Il primo passo è la costruzione del protocollo di rilevazione

Il ‘protocollo di rilevazione’: passo numero uno Nome: ………………………………Classe A B G Sesso Maschio: Femmina: E Performance economica: Entrate mensili in migliaia di euro ____,__ S Titolo di studio: D : Solo diplomato L : Laureato P : Post-laurea U Carriera ‘sentimentale’: Quanti amori?  0   1   2   3   4+  Scheda per la rilevazione

Ogni ‘ricerca tematica’, un protocollo Ogni analisi statistica di un collettivo richiede, almeno implicitamente, la formulazione di un protocollo di rilevazione, per avere le idee chiare su  Chi o cosa è l’UNITA’ DI ANALISI  Quale/i sono i CARATTERI analizzati UNITA’: organizzazioni non profit di una provincia CARATTERI: numero volontari, attività, figura giuridica, … UNITA’: pazienti ambulatorio di analisi CARATTERI: diversi test clinici Ma non è necessario che le informazioni provengano da una rilevazione frutto di un ‘disegno dell’esperimento’ completamente organizzato. Due esempi Un adeguato ‘disegno dell’analisi’ (quindi anche un ‘protocollo di ri- levazione’) può essere costruito anche ex-post, cioè a partire da informazioni preesistenti all’interesse di ricerca. Due esempi:

Sintetizzare le informazioni Ma proseguiamo col nostro esempio. Se le due classi A e B sono composte rispettivamente di 10 (classe A) e 15 (classe B) persone alla fine mi trovo in mano 25 schede di rilevazione. So insomma tutto sui singoli, ma non so cogliere la struttura del collettivo, perché le informazioni sono troppo disperse! Il primo esercizio mentale della Statistica richiede operazioni preliminari di SINTESI. Il secondo passo nella procedura di sintesi delle informazioni raccolte consiste nel costruire la… Fonte: annuari Istat. Unità’: individui o unità territoriali superiori. Caratteri: istruzione, occupazione, residenza… Fonte: dati di sondaggi sulle intenzioni di voto. Unità: diverse società demoscopiche. Caratteri: previsioni di voto e variazioni nel tempo dei diversi partiti… Due esempi

La ricodifica dei dati: passo numero due Nella classe A ci sono dieci unità CognomeNomeGSUE Bassi MarioMD34,5 Campelli GuidoML02,2 Lucioni FabioMP23,7 Parisi PaoloMD06,8 Gatti LuisaFL44,7 Gennai MaraFL14,2 Minoli EsterFP31,5 Premoli SaraFP35,0 Tacchi LauraFL25,2 Viesti RosariaFL27,2 Le informazioni sulle quattro caratteristiche di ogni unità di analisi (individuo) sono ripor- tate per riga. Le informazioni sui dieci indi- vidui relativamente a una sin- gola caratteristica sono ripor- tate per colonna La matrice ha quindi n=5 colonne (inclusa quella coi nomi) e N=10 righe. Ogni ri- ga identifica una unità di a- nalisi, ogni colonna un ca- rattere.

Dal protocollo rilevazione alla matrice dati Un Ca X1X1 X2X2 …...XiXi ……XnXn 1 2 … J X ij … … N La matrice, di dimensione ret- tangolare (N x n), è la forma con cui sono ‘ricodificati’ i dati di input nei più noti ‘fogli elettronici’ di elaborazione sta- tistica dei dati (Excel, SPSS, SAS). Il passaggio dal protocollo di rilevazione alla matrice dati si definisce ‘ricodifica’. Nella generica casella X ij sta la misura del carattere X i rilevata nell’unità di analisi (individuo) j.

Ogni sintesi comporta perdita di informazioni

La riclassificazione dei dati: passo numero tre Nella classe A ci sono dieci unità CognomeNomeGSUE Bassi MarioMD34,5 Campelli GuidoML02,2 Lucioni FabioMP23,7 Parisi PaoloMD06,8 Gatti LuisaFL44,7 Gennai MaraFL14,2 Minoli EsterFP31,5 Premoli SaraFP35,0 Tacchi LauraFL25,2 Viesti RosariaFL27,2 Già nel II° passo di sintesi ave- vamo oscurato alcune informa- zioni: per esempio i nomi Ma ora facciamo un passo avanti e concentriamoci su un solo carattere. Per esempio il titolo di studio. Oscuriamo tutte le altre colonne e concentriamo l’analisi su una sola dimensione. In questo primo volume e- samineremo gli strumenti di ANALISI STATISTICA MO- NOVARIATA

Dalla matrice dati alla serie ordinata Trascriviamo allora ‘in orizzontale’ le informazioni riportate nella colonna S dei titoli di studio: S = {D, L, P, D, L, L, P, P, L, L} In generale, la successione di modalità osservate di un carattere, rispet- tando l’ordine di rilevazione, si dice SERIE ORDINATA: X = {x 1, x 2, x 3,.., x N-2, x N-1, xN}xN} Le informazioni sono ancora esposte per esteso. Se la base-dati fosse fatta non di 10 individui ma di mille ‘unità’, avremmo bisogno di uno sforzo ulteriore di sintesi. E’ ciò che facciamo. Ma attenzione. Con la sintesi ulteriore perderemo l’informazione del- l’ordine della serie. E in certi casi (per es. le ‘serie storiche’) l’ordine (l’unità di tempo di rilevazione) è fondamentale.

Dalla matrice dati alla variabile statistica La formazione della Variabile Sta- tistica a partire da una serie ordi- nata implica queste operazioni in sequenza:  Individuazione di tutte le k moda- lità (x i ) con cui si presenta il carat- tere  Loro elencazione in ordine cre- scente, se si tratta di misure ordinabili  Riclassificazione delle N occor- renze entro le k possibili modalità  Infine, calcolo del numero di oc- correnze ripetute per ogni moda- lità (n i ). Classificazione del carattere S: Modalità (x i )Occorrenze (n i ) DXX 2 LXXXXX 5 PXXX 3 Classificazione del carattere U: Modalità (x i )Occorrenze (n i ) 0XX 2 1X 1 2XXX 3 3XXX 3 4X 1

La variabile statistica Variabile statisticaordinata univocamente Variabile statistica è una successione ordinata di coppie di valori {x i, n i } univocamente associati, relativi a un ca- rattere osservato in una popolazione x 1 x 2 x 3.. x i.. x k X = n 1 n 2 n 3.. n i.. n k moda- lità Il primo dei due parametri {x i, per i=1,2,..k} indica le diverse moda- lità che il carattere può assumere. numerosità Il secondo {n i, per i=1,2,..k} indica la corrispondente numerosità con cui ogni modalità i è stata osservata non ne- cessariamente viceversa Ad ogni modalità corrisponde una e una sola numerosità, ma non ne- cessariamente viceversa (per esempio alla numerosità 3 corrispondono due distinte 2 e 3 della variabile U)!

Classificazione per intervalli Ma supponiamo ora di riportare la serie ordinata (trascritta per co- modità in ordine crescente) delle modalità assunte dal carattere E (entrate mensili in migliaia di euro): S = {1,5; 2,2; 3,7; 4,2; 4,5; 4,7; 5,0; 5,2; 6,8; 7,2} Qui c’è poco da classificare!! Ogni modalità si osserva una e una sola volta, per il dettaglio della misura e le poche osservazioni. intervalli di modalità possibili Per potere sintetizzare le nostre informazioni, e renderle più leggibili, occorre individuare non le modalità, ma degli intervalli di modalità possibili, e catalogare le osservazioni entro di essi. intervalli chiusi a destra o a sinistra se: Parleremo di intervalli chiusi a destra o a sinistra se:  x k <Xx k+1 (x k – x k+1 ] oppure x k -| x k+1  x k <Xx k+1 e allora scriveremo (x k – x k+1 ] oppure x k -| x k+1  x k X<x k+1 [x k - x k+1 ) oppure x k |- x k+1  x k X<x k+1 e allora scriveremo [x k - x k+1 ) oppure x k |- x k+1

Conteggio stem & leaf Ricostruiamo la serie statistica dei redditi dei 25 compagni di classe Soluzione: conteggiamo tutte le osservazioni ordinandole secondo l’unità più grande. Riportiamo ogni osservazione come una fo- glia (leaf) al posto giusto lungo lo stelo (stem) 1:1,2; 1,5; 1,5 2:2,2; 2,4; 2,6; 2,9 3:3,2; 3,4; 3,5; 3,6; 3,7 4:4,2; 4,2; 4,5; 4,5; 4,7 5:5,0; 5,2; 5,2 6:6,8; 6,8 7:7,2; 7,4; 7,6 Classificazione di E in 7 classi: Modalità (x i )(n i ) 1 l l l l l l l- 83

Attenzione alle classi! Classificazione di E in 3 classi: Modalità (x i )Occorrenze (n i ) 0 -l 3XX 2 3 –l 6XXXXXX 6 6 –l 8XX 2 Classificazione di E in 4 classi: Modalità (x i )Occorrenze (n i ) 0 -l 2X 1 2 -l 4XX 2 4 -l 6XXXXX 5 6 -l 8XX 2 La scelta degli estremi degli in- tervalli è, entro certi limiti, de- mandata all’arbitrio del ricer- catore. equivalenti Certo, si possono costruire inter- valli equivalenti (uguale am- piezza), ma anche intervalli di ampiezza crescente col crescere delle modalità, o in altri modi an- cora, a fantasia. I commenti del giorno dopo le elezioni sono ottimi esempi di scelta delle classi (di partiti) in funzione di ciò che si desidera mettere in evidenza (è vero, ha perso il mio partito, ma ha vinto la mia coalizione..).

Equivalenti e equifrequenti Dalla serie dei redditi eliminiamo ora il più alto (7,6) e proviamo a vedere cosa succede se classifichiamo i dati in due modi differenti: Costruendo 4 classi equivalenti (uguale ampiezza) Costruendo 4 classi equifrequenti (uguale numerosità) 1,2; 1,5; 1,5 2,2; 2,4; 2,6; 2,9 3,2; 3,4; 3,5; 3,6; 3,7 4,2; 4,2; 4,5; 4,5; 4,7 5,0; 5,2; 5,2 6,8; 6,8 7,2; 7,4 4 classi equivalenti: Modalità (x i )(n i ) 1,1 l- 2,7 6 2,7 l- 4,3 8 4,3 l- 5,96 5,9 l- 7,54 4 classi equifrequenti: Modalità (x i )(n i ) 1,1 l- 2,7 6 2,7 l- 4,0 6 4,0 l- 5,2 6 5,2 l- 7,5 6

Le modalità Torniamo alle modalità. Esse devono possedere tre qualità:  Le modalità devono essere disgiunte  Le modalità devono essere disgiunte (senza sovrapposizioni)  Le modalità devono essere esaustive  Le modalità devono essere esaustive (devono coprire tutto il venta- glio delle possibilità) sempre in ordine crescente (se possibile)  Inoltre accettiamo la convenzione di riportarle sempre in ordine crescente (se possibile). Degli esempi, buoni e non: ETA’ in anni compiuti: ETA’ in an- ni compiuti: 15|-20 20|-25 25|-30 ETA’ in anni compiuti: 15|-19 20|-24 25|-29 Ripartiz. Geog.Italia Nord Centro Sud Ripartiz. Geog.Italia CentroNord CentroSud Sud+Isole Non disgiunte (20 e 25enni) O.K.Non esaustive (19 e 24enni) Non esaustive (isole) Non disgiunte (es. Umbria?)

Numerosità e indice di sommatoria Le numerosità (o frequenze assolute) specifiche n i (relative alle modalità i) sono il risultato di un conteggio: sono quindi sempre numeri interi. Attenzione: le modalità x i non si sommano mai insieme! Invece le n i si sommano tra loro, e la somma deve essere pari alla numerosità totale N. CONDIZIONE DI NORMALITA’: Somma delle numerosità specifiche = Numerosità totale  Se Somma > N le modalità potrebbero non essere disgiunte  Se Somma < N le modalità potrebbero non essere esaustive L’espressione “Somma delle numerosità specifiche n i per i che va da i a k” (k=numero delle modalità) è lunga. Si può scrivere in modo più compatto? Con qualche passaggio ‘stenografico’, simbolizzando con S (e meglio an- cora con la lettera greca corrispondente ) l’operazione di somma: Si scrive così e si legge: “somma delle n con i, per i che va da 1 a k, è pari a N”

Finalmente, qualche confronto Dal protocollo di rilevazione, per ricodifica, alla matrice dati e dalla matrice dati, per riclassificazione, alla variabile statistica, abbiamo via via sintetizzato le nostre informazioni. Ora possiamo cominciare a usare i dati per qualche utile esercizio di lettura. Il primo esercizio è quello del confronto del peso della stessa modalità in diverse popolazioni. ESEMPIO: nella classe A (composta di 10 individui) i maschi sono 4. Nella classe B (15 individui) sono 5. In assoluto quindi non v’è dubbio: ci sono più maschi in B. Ma nelle dinamiche di classe 5 maschi su 15 erano solo il 30%, 4 su 10 erano il 40%! tenendo sotto controllo l’ampiezza Il confronto tra due di- stribuzioni di frequenza dello stesso carattere (M/F) in popolazioni di diversa ampiezza è pos- sibile solo tenendo sotto controllo l’ampiezza (fattore di disturbo).

Le frequenze (relative) Chiamiamo frequenze (o frequenze relative) specifiche i rapporti tra le corrispondenti numerosità specifiche e la numerosità totale da cui la condizione di normalità Le frequenze sono dunque delle frazioni, comprese tra 0 e 1. Noi tendiamo a leggerle come percentuali, ‘fatto cento il totale’. Porre pari a 1 (o 100) N è un criterio per rendere comparabili nu- merosità diverse, depurandole dell’effetto distorsivo della dimensione delle rispettive popolazioni. Ma non è un criterio universale. John Graunt, agli albori degli studi quantitativi (1665) poneva pari a 1 il numeratore, e avrebbe detto che nella classe A c’era un maschio ogni 3, e in B uno ogni 2,5. Un criterio vale l’altro!!

Imparare a leggere (e a usare) le frequenze Il 25 luglio 2002 un quotidiano di interesse nazionale in quarta pagina illustra un reportage sui risparmi degli italiani con questa tabella: Le attività finanziarie delle famiglie Su 100 famiglie italiane…  53 hanno solo depositi  10 hanno depositi e titoli di Stato  6 hanno depositi e altri titoli  6 hanno depositi, titoli di St.e altro  15 non hanno alcuna attività finanz Sapreste dire:  Che cosa non torna nella tabella?  Che distorsioni comporta nella interpretazione dei dati?  Quale potrebbe essere la o le spiegazioni (ammesse fino a 3 risposte) Se avete risposto giusto almeno a due domande, complimenti! Dopo sole due lezioni capite di Stati- stica più di molti illustri giornalisti.