Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoTiziano Cenci Modificato 9 anni fa
1
LEZIONE A.2 La produzione del dato TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli
2
In questa lezione.. In questa lezione analizzeremo alcuni differenti canali di produzione delle modalità di una ‘variabile’. In particolare rifletteremo su: La ‘misurazione’ dei fenomeni La costruzione di rapporti statistici e indicatori Questa lezione ragiona sulla formazione della prima delle due componenti di una variabile: la modalità. Per quel che riguarda le frequenze, presto rifletteremo sulla produzione di un costrutto logico parallelo, quello di ‘probabilità’.
3
C’è dato e dato! Ripartiamo dalle quattro caratteristiche delle due classi in trattoria: genere, titolo di studio, amori, entrate.. E’ evidente che sono espresse in modi assai diverso tra loro. Alcune sono in numeri interi, altre in decimali, altre addirittura in lettere. Prendiamo il carattere G (genere): se la ‘misura’ di Paolo è M e quella di Luisa è F, posso dire che Paolo Luisa. Ma posso dire che Paolo – quanto al carattere ‘genere’ – è più o meno di Luisa? E posso dire di quanto è maggiore o minore? Prendiamo ora il carattere S (tito- lo di studio). La ‘misura’ di Paolo è D (diplomato), quella di Luisa è L (laureata). Posso dire quindi che Paolo ha un livello di istruzione diverso da quello di Luisa, e anche che il suo livello è minore: M(istruzione di Paolo) M (istruzione di Luisa). Ma posso dire anche a quanto ammonta la differenza? C’è da dubitarne. Possiamo riassumere queste rifles- sioni sparse con due affermazioni di sintesi un po’ più formali
4
Distinguere il fenomeno dalla sua misura - 1 La prima proposizione è che il carattere che rileviamo (X) non è la proprietà reale (F), ma una sua misura M(F). Per esempio: Se rileviamo la statura dei 10 commensali, quel che rileviamo è la mi- sura della statura [M(P)], non la statura vera e propria. Se la misuriamo in cm. ci sentiamo legittimati a dire che la distanza tra 180 e 170 è la stessa che corre tra 170 e 160. Ma se la misuriamo a ‘spanne’? Potremo solo stabilire un ordine gerarchico di statura. Se rileviamo l’ora di arrivo in trattoria, possiamo avere una grande precisione (Mario è arrivato 10’ prima di Ester). Ma se la nostra ‘misura’ del tempo fosse basata su una concezione diversa, per esempio sul ciclo del sole o addirittura non legata alla ‘freccia irreversibile del tempo’ di newtoniana memoria?
5
Distinguere il fenomeno dalla sua misura - 2 I quattro livelli di misurazione sono: Classificazione in tipologie: se M(A) M(B) A B Ordinamento gerarchico: se M(A) > M(B) A > B Misurabilità delle distanze: se M(A)–M(B) = M(C)–M(D) (A–B) = (C–D) Misurabilità dei rapporti: se M(A) / M(B) = k A = k·B esistono quattro livelli di misurazione, che soddisfano cumulativamente quattro proprietà che legano fenomeni [X] e misure [M(X)]. La seconda proposizione è che esistono quattro livelli di misurazione, che soddisfano cumulativamente quattro proprietà che legano fenomeni [X] e misure [M(X)].
6
Una tipologia di scale di misurazione Tipo di scala Proprietà Variabile corrispon- dente Classifica- zione in tipologie Ordina- mento gerarchico Misura- zione di distanze Misura- zione di rapporti Nominale SI’NO! Mutabile sconnes. Ordinale SI’ NO! Mutabile ordinale Per intervalli SI’ NO! Variabile quantita tiva Per rapporti SI’ Ad ogni livello di misurazione corrisponde un tipo di ‘variabile statistica’.
7
Una convenzione che lasceremo da parte Che differenza c’è tra scale per intervalli e per rapporti? Se Mario guadagna tremila euro al mese e Ester millecinquecento, visto che 3000 è il doppio di 1500, davvero Mario ha un reddito doppio di Ester. La misura è affidabile anche per quanto riguarda i rapporti. Se Ester ha un Q.I. (quoziente di intelligenza di Binet) pari a 140 e Mario solo 70, l’intelligenza di Ester non è il doppio, ma assai più del doppio di quel-la di Mario (che pure guadagna molto di più…). Dov’è il trucco? Il reddito ha una origine ‘assoluta’ (0 euro sono pro- prio 0 euro), il Q.I. ha una origine convenzionale. Tra le tante convenzioni che la Statistica impone di rispettare quella della origine (punto zero) del carattere studiato è ininfluente. D’ora in poi non terremo distinte variabili ‘quantitative’ ‘per inter- valli’ e ‘per rapporti’.
8
Quantità & qualità Secondo il livello di misurazione ci limiteremo a distinguere variabili: Qualitative, quando non soddisfano le proprietà di misura delle differenze, a loro volta distinguibili in: Nominali (identificano solamente tipologie) Ordinali (modalità incasellabili secondo un ordine) Quantitative, le cui modalità misurano ‘parametricamente’ il fenomeno cui fanno riferimento. Per esse anche la differenza tra due modalità è un dato ‘oggettivo’. Ma tra le variabili quantitative terremo conto della distinzione tra: Quantitative discrete (le modalità sono un insieme numerabile di valori distinti) Quantitative per classi (le modalità aggregate in intervalli di valori (x k, x k+1 ] tali che sia x k <Xx k+1 )
9
Una tipologia di variabili Riassumendo, useremo per tutto il corso questa tipologia di variabili: TIPO DI VARIABILIESEMPI Qualitative nominali Nazionalità, lingua, genere, Esito di un test (positivo/negativo),.. Qualitative ordinali Customer satisfaction, Grado di giudizio, Anno di corso.. Quantitative discrete Fratrìa, Condanne subite, Auto possedute, Telefonate in un’ora.. Quantitative per classi Fasce di reddito, Classi di età, Segmenti auto per cilindrata.. Ma merita accennare a due tipi di variabili particolari…
10
Variabili continue Il tempo è un carattere (un fenomeno) che scorre continuamente. Anche l’età è un carattere intrinsecamente continuo,non ‘discreto’. Da quando iniziate a quando finite di leggere questo capitolo sarete inesora- bilmente invecchiati. Eppure ricordiamo certi orologi delle sale d’attesa delle stazioni, che allo scoccare del minuto scattano con un ‘click’. Il tempo è un carattere continuo, la misura del tempo è discreta. Nel corso del libro non useremo varia- bili continue, né il loro complicato ap- parato matematico. Ma esse sono importanti dove la pre- cisione della misurazione approssima la ‘potenza del continuo’. Distribuzione skew dei redditi Le useremo solo come modelli ideali di riferimento (e qualcosa di più)
11
Variabili dicotomiche Difficile pensare “Maschio / Femmina” come modalità quantitative. Nemmeno li si può ritenere ordinabili (In che senso M è più di F?). dicotomiche Eppure questa variabile come tutte quelle dicotomiche (composte di due sole modalità disgiunte ed esaustive) resta prodigiosamente a cavallo tra qualitativo e quantitativo. Basta leggerla così: Incardinando la variabile su una delle due modalità (per es. F) ed esprimendo le due modalità in questa forma: “è F?” o “non è F?” Agganciando alle due modalità i numeri 1 (è F) e 0 (non è F). Il numero ora identifica un dato oggettivo: l’accadimento o successo (senza valutazione!!) (1) o il non accadimento (0) dell’evento ‘F’ Le variabili dicotomiche tengono i piedi in due staffe. Le variabili dicotomiche (provate voi a pensarne alcune, sono infinite) sono un tassello fondamentale della Statistica, proprio perché tengono i piedi in due staffe.
12
Modalità come rapporti ‘95’00 Va6,55,1 Co3,53,3 So6,32,8 Mi8,15,2 Bg3,32,9 Bs4,34,2 Pv5,15,0 Cr4,03,0 Mn4,32,6 Lc2,91,7 Lo9,45,2 Ita11,610,6 La tabella a destra riporta (al 1995 e 2000) i tassi di disoccupazione provinciali lombardi che, per aggregazione in classi, dan luogo a queste due variabili D 95 e D 00 : D 95 x i |-x i+1 nini 0–2,50 2,5-56 5-7,53 7,5-102 D 00 x i |-x i+1 nini 0–2,51 2,5-56 5-7,54 7,5-100 Sono quantitative, ma non semplici numeri: sono dei rapporti tra numeri. E’ possibile? Sappiamo già confrontare le distribuzioni di frequenza al 95 e al 2000. Ma ci resta un dubbio sul tipo di modalità:
13
Modalità con ‘confronti incorporati’ Sì, è possibile. Non sempre le modalità quantitative sono valori ‘assolu- ti’ (anni, euro compresi i decimali, fatturati..). Non sempre i dati misu- rano un solo fenomeno, a sé stante. Talvolta si desidera inserire in una stessa misura già il confronto tra di- verse informazioni. A volte per tale confronto si ricorre a differenze tra più dati (es. saldi contabili, o migratori): D ij = x i – x j oppure | D ij |= | x i – x j | Tuttavia una differenza risente della dimensione delle grandezze messe a confronto. Così una misura (come un saldo) che incorpori la comparazione di due differenze può nascondere qualcosa nell’interpretazione. Per esempio: prendiamo il PIL pro capite ($) di quattro paesi…
14
Limiti interpretativi delle differenze statistiche PSAPVS Usa23320Egitto620 Italia20950Etiopia120 |Usa-Ita|2370|Egi-Eti|500 La differenza tra Usa e Italia è di ben 2370 $, Qualcosa non quadra nella lettura dei dati. Facendo il rapporto (invece che la differenza) tra Pil, risulta che il PIL ita- liano è comunque il 90% di quello statunitense, mentre quello etiope è a stento il 19% di quello egiziano. confronti depurati della dimensione assoluta del fenomeno. Dunque è instaurando dei rapporti (più che delle differenze) che si pos- sono tentare dei confronti depurati della dimensione assoluta del fenomeno. quella tra Etiopia e Egitto è poco più di 1/5
15
Rapporti statistici Rapporti di coesistenza Rapporti di densità Numeri indici Tassi di incremento Rapporti di derivazione Rapporti di composizione Un rapporto statistico è un quoziente che espri- me quante unità e fra- zioni di unità del dato posto al numeratore corrispondono a una unità del dato posto al denominatore. Anche i rapporti statistici sono spesso moltiplicati per 100 e espressi in %. I due termini del rapporto possono dare informazioni differenti. Perciò Avremo differenti famiglie di rapporti statistici, connessi tra loro logicamente come mostra il dendrogramma (P.S. tornate al dendrogramma dopo la presentazione dei rapporti)
16
Rapporti di coesistenza e di densità rapporti di coesistenza I rapporti di coesistenza sono quozienti tra le intensità (misure) di due fenomeni diversi, coesistenti nello stesso ambito: R i = y i / x i Esempi (spesso moltiplicati per 100 e espressi in %): (Aziende condotte da persone fisiche / Aziende condotte da società) Indice di carico sociale = (Pop 65 anni) / (Pop 0-15 anni) Rapporto mascolinità alla nascita = (Nati maschi) / (Nati femmine) Indice di liquidità= (Attività correnti) / (Passività correnti) rapporti di densità I rapporti di densità sono quo- zienti tra l’intensità (misura) di un fenomeno e una misura di dimen- sione del collettivo di riferimento. i = y i / w i Esempi (espressi spesso come numero di unità y per unità dimensionale w): Indice di diffusione TV = (Abbonamenti TV)/(Pop.residente) Densità per kmq = (Pop.residente) /(Superficie regione kmq) Indice di affollamento = (Occupanti abitazioni)/(Vani occupati) Produzione media = (Tons grano prodotto)/(Sup.agraria utile)
17
Numeri indici e rapporti di derivazione numeri indici I numeri indici sono quozienti tra le intensità (le misure) di uno stesso fenomeno in due istanti temporali diversi, o in due ambiti territoriali diversi b I t = x t / x b Esempi: Indice del costo della vita (1960=100) Indice di produzione del petrolio (1972 = 100) Indice regionale di microcriminalità (Lazio = 100) I numeri indici derivati da serie stori- che sono particolarmente importanti: dedicheremo loro una intera lezione! Si può usare il dato di stock a inizio periodo (“probabilità di flusso”) e t,t+1 /x t o u t,t+1 /x t o di metà periodo (tasso di flusso) e t,t+1 /[(x t +x t,t+1 )/2] oppure u t,t+1 /[(x t +x t,t+1 )/2] rapporti di derivazione I rapporti di derivazione sono quozienti tra un dato di flusso – ri- ferito a un certo intervallo tempo- rale t,t+1 - e un dato di stock che fa da base di riferimento. Esempi: tassi di entrate o uscite finan- ziarie, tassi anagrafici di iscrizione o cancellazione, probabilità di matrimonio
18
Tassi di variazione e rapporti di composizione Esempi: tassi di variazione (incremen- to o decremento) demografico, del co- sto della vita, della produzione, di una epidemia, etc,. tassi di variazione I tassi di variazione sono i saldi tra due quozienti di flusso di dire- zione opposta riferiti allo stesso fe- nomeno e nella stessa unità di tempo/spazio Per esempio: Tasso di incremento r t = = tasso entrata – tasso uscita = = [e t,t+1 - u t,t+1 )/[(x t +x t,t+1 )/2] rapporti di composizione I rapporti di composizione sono quozienti tra una parte e il tutto di un carattere studiato q i = x i / k=1…N x k Esempi: Quota del bilancio familiare speso per beni alimentari (Engel) Share di ascolti in prima serata da parte di una trasmissione Quota azionaria di una società in possesso di un’altra società P.S.: anche in questo caso i rap- porti sono in genere espressi in percentuali.
19
Qualche esempio Quante forme per le modalità quantitative! Qualche esempio? Province per Abitanti/kmq x i -x i+1 nini 0-400 34 400- 1000 40 1000- 2000 26 Azionisti per azioni poss. xixi nini 1035 509 1002 Facoltà per stud/docenti x i -x i+1 nini 20-40 2 40-100 6 100- 300 42 Anni per incr. costo d. vita x i -x i+1 nini 0- 0,01 6 0,01- 0,03 12 0.03- 0,05 7 Province per Abit/Tot Abit x i -x i+1 nini.002-.004 45.004-.020 50.020-.060 5 Rapporto di densità, per classi Valore assoluto, discreto Rapporto coesistenza per classi Tasso variazione, per classi Rapporto di composizione per classi
20
Frequenze come modalità Un’ultima considerazione. I rapporti di composizione, abbiamo detto, so- no quozienti tra una parte e il tutto di un carattere. Quindi anche le frequenze relative - rapporti tra il numero di volte in cui è stata osservata una modalità e il numero totale di osservazioni - sono rapporti di composizione. Attenzione quindi: talvolta quelle che sono modalità in una variabile statistica, sono frequenze in un’altra!! Per esempio: Il mercato della pubblicità è diviso tra 10 società: 6 possiedono quote del 5% l’una, 2 il 10%, due il 25%. Ecco 2 variabili distinte: A=Società per quote di mercato 5%10%25% 6 2 2 B=Mercato per dimensione soc. PiccoleMedieGrandi 0,30 0,20 0,50 In A le quote sono modalitàIn B si cumulano nelle frequenze
21
Frequenze e probabilità Ancora sui rapporti di composizione (quozienti parte/tutto). Sottoponia- mo a test 10 calciatori, di cui quattro sono ‘dopati’: frequenza Dopo il test: 4 giocatori su 10 sono osservati ‘positivi’. La frequenza di giocatori positivi è del 40% probabilità Prima del test. Su 10 casi possibili 4 sono favorevoli: la probabilità che un giocatore sia positivo è del 40% fattuale Il concetto di frequenza, cuore del- la Statistica, descrive il mondo del riscontro oggettivo, ‘fattuale’ dei fatti osservati. afattuali Il concetto di probabilità (casi favo- revoli su casi possibili) è logica- mente simile a quello di frequenza, ma permette di simulare mondi non ancora osservati, teorici, ‘afattuali’. E’ proprio lo sganciamento dai fatti osservati che dà potenza teorica al concetto di probabilità Ma come si costruisce una ‘probabilità’? Lo vedremo a una prossima puntata
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.