La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LEZIONE A.4 Modalità rappresentative TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli.

Presentazioni simili


Presentazione sul tema: "LEZIONE A.4 Modalità rappresentative TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli."— Transcript della presentazione:

1 LEZIONE A.4 Modalità rappresentative TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

2 In questa lezione.. In questa lezione proseguiremo nella procedura di sintesi delle informazioni. Abbiamo già conosciuto i primi tre passi di sintesi: La ricodifica in matrice; La classificazione in forma di variabile statistica La rappresentazione grafica. misure di sintesi delle distribuzioni di frequenzatratti identificativi di una carta d'identità Il quarto passo è quello della individuazione e calcolo di misure di sintesi delle distribuzioni di frequenza. Esse sono come i tratti identificativi di una carta d'identità. a media e la moda. In questa lezione acquisteremo familiarità con la media e la moda. Ne vedremo le proprietà e le procedure di calcolo. Infine calcoleremo tali misure per miscugli di popolazioni Infine calcoleremo tali misure per miscugli di popolazioni.

3 Tratti identificativi Carta di identità di Pippo Superman Tratti identificativi: Quanto è alto? __ Quanto pesa?___ Colore occhi____ ………….. _____ Carta di identità di Distribuzione dei redditi di XLand Tratti identificativi: Quale è il reddito medio? ________ Quanta è la disuguaglianza?_ E asimmetrica?__ ………….. _____ Come in una carta d'identità, non po- tendo descrivere la persona o variabile statistica nei minimi dettagli, ci limi- teremo a identificarla mediante alcune misure sintetiche: misure di posizione (centro) misure di dispersione o variabilità altre misure di forma (simmetria,...) NOTA: sintetizzando perdiamo sempre informazioni. Se di un ricercato sappiamo solo che è alto 1.70, pesa 63 kg. e ha occhi castani, quanti di voi potrebbero essere "vittime di errore giudiziario"?

4 Misure di posizione centro Le misure di posizione misurano l'attitudine di un fenomeno X a localizzarsi in un intorno delimitato dell'asse reale, che siamo indotti a ritenere il centro di X. Quale è il partito di maggioranza ? La lunghezza delle gonne varia di anno in anno. Qual è la moda di questanno? A che età avviene di regola landata in pensione? Qual è il numero medio di figli per donna in Italia? Possiamo chiamare queste misure genericamente "medie".

5 Due definizioni di media Una media M = g(x 1, x 2,..., x m ) è un indice sintetico di una di- stribuzione statistica, che alle diverse modalità del carattere ne sostituisce una sola che, per il modo in cui è stata scelta, possa ritenersi rappresentativa o tipica Una media M = g(x 1, x 2,..., x m ) è un indice sintetico di una di- stribuzione statistica, che alle diverse modalità del carattere ne sostituisce una sola che, per il modo in cui è stata scelta, possa ritenersi rappresentativa o tipica. l'ordine di grandezza Se la v.s. è quantitativa la media indicherà l'ordine di grandezza del carattere studiato. In caso di v.s. quantitative definiamo: Media in senso stretto di una v.s. X è una qualsiasi funzione reale M = (x 1,.., x m ; n 1,.., n m ) che soddisfi 3 proprietà Media in senso stretto di una v.s. X è una qualsiasi funzione reale M = (x 1,.., x m ; n 1,.., n m ) che soddisfi 3 proprietà: Internalità Internalità [Cauchy]: la media deve essere compresa tra il mini- mo e il massimo valo- re assunto dalla varia- bile. Monotonicità Monotonicità: date due v.s. X e Y, con osserva- zioni identiche salvo (al- meno) una per la quale sia y i >x i, la media di Y non può essere più pic- cola della media di X. Moltiplicatività Moltiplicatività [o in- varianza rispetto allu- nità di misura]: se C è una costante reale e o- gni modalità x i è mol- tiplicata per C, anche la media è moltiplicata per C.

6 Medie analitiche, medie lasche La definizione di media in senso stretto è restrittiva. coinvolgere in un'unica funzione di sintesi matematica tutti i termini della distribuzione, x i e n i media analitica Può essere soddisfatta da medie calcolate su v.s. quantitative, che quindi possono «coinvolgere in un'unica funzione di sintesi matematica tutti i termini della distribuzione, x i e n i ». Una media calcolata in questo modo si dice analitica. Una media che non coinvolge nel calcolo tutti i termini della distribuzione si dice media lasca Una media che non coinvolge nel calcolo tutti i termini della distribuzione si dice media lasca. Grazie alla loro procedura di costruzione, alcune medie lasche possono essere calcolate anche per mutabili. In compenso potranno non godere della terza proprietà (di monotonicità). Medie lasche (o "medie in senso lato) sono la moda e la mediana. Di medie analitiche ce nè una gran varietà. La più naturale e di uso comune è la media aritmetica ponderata. In questa lezione faremo conoscenza della Media aritmetica e della Moda.

7 Medie come modalità rappresentative rappresen- tative Di medie, sè detto, sia generiche che in senso stretto, se ne possono de- finire molte. Noi ci fermeremo su alcune, a cui corrisponde un significato logico comprensibile e utile. Medie che siano per noi davvero rappresen- tative della popolazione analizzata. In particolare definiremo medie che: modalità più osservata Corrispondono alla modalità più osservata (es. partito di mag- gioranza, abbigliamenti in o di moda…). modalità di mezzo della popolazione Corrispondono alla modalità di mezzo della popolazione, quella che sta al centro del plotone (vedi limmagine oraziana dellin medio stat virtus, o luomo medio di Quetelet o di Asimov). modalità virtuale lascia immutata una misura di sin- tesi della popolazione Corrispondono a una modalità virtuale che, se sostituita a tutte le modalità di fatto osservate, lascia immutata una misura di sin- tesi della popolazione (es.: il reddito medio è quello che sostituito ai diversi redditi lascia inalterato il reddito complessivo della col- lettività; il tasso di incremento del costo della vita negli anni 90 è quello che, sostituito ai diversi tassi annui, lascia inalterato il tasso di incremento sullintero decennio..).

8 Medie e livelli di misurazione I tre significati di media corrispondono a livelli diversi di misurazione. Medie che corrispondono.. Richiedono operazioni di..Livello di misurazione Alla modalità più osservata Spoglio delle modalità, di qualunque tipo esse siano Tutte Tutte (nominali, ordi- nali, quantitat.) Alla modalità di mezzo Ordinamento delle modalità in una sequenza crescente o decrescente Ordinabili Ordinabili (ordinali, quantitative) Alla modalità che, sostituita alle x i, lascia immutata una misura di sintesi Sintesi algebrica delle proprietà individuali (somma, prodotto) per determinare la corrispondente proprietà collettiva Solo quantitative

9 Medie e funzione obiettivo sintesi algebrica delle proprietà individuali in una corrispondente proprietà del collettivo, che abbia un significato utile e condiviso Anche se si possono applicare solo a variabili quantitative, medie del terzo tipo (le medie analitiche) corrispondono allidea più diffusa e alluso comune delle medie. Esse implicano lesistenza di una sintesi algebrica delle proprietà individuali in una corrispondente proprietà del collettivo, che abbia un significato utile e condiviso. Media obiettivo (o secondo Chisini)funzione o- biettivo Media obiettivo (o secondo Chisini) rispetto a una data funzione o- biettivo è quel valore numerico che, sostituito a ogni modalità osservata, lascia inalterata la funzione obiettivo stessa. Una media analitica richiede: la possibilità di maneggiare algebricamente le modalità individuali osservate, una scelta ragionata della misura di sintesi. non esiste una media buona per tutte le stagioni, ma la media giusta per ogni funzione obiettivo. Dunque non esiste una media buona per tutte le stagioni, ma la media giusta per ogni funzione obiettivo.

10 Intensità totale e media aritmetica lintensità totale somma delle modalità osservate nelle N unità della popolazioneLintensità totale ripartita tra le N unità è la media aritmetica. La funzione obiettivo più diffusa è lintensità totale del carattere studiato, cioè la somma delle modalità osservate nelle N unità della popolazione. Lintensità totale ripartita tra le N unità è la media aritmetica. Carattere / popolazioneIntensità totaleMedia aritmetica Reddito annuo / cittadiniProdotto internoReddito pro capite Nascita di un figlio nellanno / donne Totale nascite annueNumero medio figli per donna Ore lezione / docentiMonte oreNumero medio ore/docente Furti / provinceAmmontare nazionale microcriminalità Media furti per provincia pon- derata Media aritmetica pon- derata: le modalità so- no ponderate con le rispettive frequenze

11 Calcolo della media aritmetica xixi x1x1 x2x2 x3x3 x4x4 x5x5 nini n1n1 n2n2 n3n3 n4n4 n5n5 N f i = n i /N f 1 = n 1 /N f 2 = n 2 /N f 3 = n 3 /N f 4 = n 4 /N f 5 = n 5 /N 1 x i n i x 1 n 1 x 2 n 2 x 3 n 3 x 4 n 4 x 5 n 5 T x i f i x 1 f 1 x 2 f 2 x 3 f 3 x 4 f 4 x 5 f 5 T/N Per calcolare una media aritmetica usere- mo la rappresentazione incolonnata di una v.s.. Alle colonne già note dovremo ag- giungere quella delle intensità specifiche (x i n i ) o, equivalentemente, delle intensità specifiche relative (x i f i ). Lintensità totale del ca- rattere studiato si ottiene facendo la somma della colonna delle intensità specifiche: T = x i n i La media aritmetica si ot- tiene dividendo T per N, oppure facendo la somma della colonna delle inten- sità specifiche relative: m = x i f i m = T/N

12 Un esempio su variabili discrete (e 3 annotazioni) (I) Le intensità specifiche (assolute) han- no un significato concreto: 350 è il monte totale di azioni possedute dai piccoli azionisti (10 azioni a testa), mentre 200 è il monte azioni dei grandi azionisti. xixixixi nininini xixi nini fifi 10350, , ,0435 niente 461,00 x i n i x i f i 3507, , , ,74 Torniamo ai 46 azionisti e loro azioni m = x i f i = 21,74 m =T/N=1000/46 =21,74 (II) Luso di frazioni come le frequenze relative nel calcolo richiede di portarsi dietro un congruo numero di decimali m=21,739 (III) La media aritmetica è una modalità virtuale! Essa può non corrispondere a nessun valore osservato e nemmeno osservabile (cfr 2,1 figli per donna..)

13 Variabili per classi Il calcolo della media aritmetica coinvolge nel conto tutte le modalità e numerosità. Che fare, se una variabile è per classi? Quale valore assumiamo per ogni intervallo? Il minimo? Il massimo? Uno a caso? Anche se comporta rischi di errore, si sceglie di prendere il valore centrale di ogni intervallo, cioè la semisomma degli estremi: vc i = (x i INF + x i SUP )/2. Pazienti anoressiche per età di insorgenza x i -x i+1 nini (x i +x i+1 )/2 fifi vc i x f i ,0770, ,50,3173, ,50,4447, ,1623, ,00015,623 la mediadi una distribuzione rettangolare è proprio la semisomma Nota: prendere il valore centrale delle classi non è solo una scelta pragmatica. Abbiamo costruito listogramma con lipotesi di distribuzione uniforme entro ogni intervallo, e la media di una distribuzione rettangolare è proprio la semisomma. m x =15,6 xixixixi hihihihi

14 Un secondo esempio x i |- x i+1 0 | | | | | | |-300 nini fifi 11,46 39,95 31,48 11,19 3,37 2,00 0, VC i vc i x f i 1,146 11,985 15,740 7,833 3,033 2,600 1,265 43,6 xixi hihi Famiglie per reddito annuo (milioni lire) vc i x n i m x = T/N = 47910/1099 = 43,6 (il grafico è espresso in decine di milioni) m x =4,36

15 Un esempio riassuntivo x i |- x i+1 0,0 |- 0,8 0,8 |- 1,2 1,2 |- 1,6 1,6 |- 2,0 2,0 |- 2,4 2,4 |- 2,8 2,8 |- 3,2 3,2 |- 3,6 3,6 |- 4,0 4,0 |- 4,4 4,4 |- 4,8 4,8 |- 5,2 5,2 |- 6,0 6,0 |- 8,0 8,0 |- 12 milano nini xixi 0,4 1,0 1,4 1,8 2,2 2,6 3,0 3,4 3,8 4,2 4,6 5,0 5,6 7,0 10,0 xinixini 1,6 1,0 9,8 18,0 19,8 59,8 33,0 51,0 30,4 25,2 13,8 15,0 16,8 56,0 30,0 381,2 nini xixi 0,4 1,0 1,4 1,8 2,2 2,6 3,0 3,4 3,8 4,2 4,6 5,0 5,6 7,0 10,0 piccoli xinixini 2,8 9,0 77,0 185,4 193,6 319,8 204,0 170,0 114,0 172,2 69,0 55,0 67,2 91,0 30,0 1760,0 confronti tra medie Possiamo ora fare confronti tra medie: m x M =381,2/114=3,34 m x P =1760,0/628=2,80 Il reddito medio di Mi- lano è assai più elevato di quello dei piccoli co- muni della Regione Una cosa da notare: La classe di reddito a cui corrisponde il maggiore ammontare di reddito non è per forza lultima, quella dei più ricchi: è quella dei numerosi ceti medi (2,4-2,8 milioni)

16 Proprietà della media aritmetica La media aritmetica rispetta le tre proprietà di base delle medie analitiche. Internalità: m=21,74 azioni sta in mezzo tra x 1 (10) e x m (100) Internalità: m=21,74 azioni sta in mezzo tra x 1 (10) e x m (100) Invarianza alle trasformazioni: se ogni azioni vale 1,5 euro, la v.s. Valore azionario posseduto in euro è una trasformata Y=1,5 * X. La media di Y è effettivamente = 1,5 * m(X) Invarianza alle trasformazioni: se ogni azioni vale 1,5 euro, la v.s. Valore azionario posseduto in euro è una trasformata Y=1,5 * X. La media di Y è effettivamente = 1,5 * m(X) Monotonicità: se i due grandi azionisti incrementano il loro pac- chetto portandolo a 150 azioni ciascuno, il monte azioni totale di- venta T=1100 e la media aritmetica diventa 23,9. La spe- requazione del mercato cresce, ma la media procapite aumenta! Monotonicità: se i due grandi azionisti incrementano il loro pac- chetto portandolo a 150 azioni ciascuno, il monte azioni totale di- venta T=1100 e la media aritmetica diventa 23,9. La spe- requazione del mercato cresce, ma la media procapite aumenta! Ma essa possiede anche altre due proprietà assai importanti : Baricentricità: la media a. è il baricentro della distribuzione Baricentricità: la media a. è il baricentro della distribuzione Minimizzazione del danno: la media a. rende minima una funzione di errore o di perdita di informazioni Minimizzazione del danno: la media a. rende minima una funzione di errore o di perdita di informazioni

17 Il concetto di baricentro La rana è più grassa della gru: laltalena non è in equilibrio. Come fare per portarla in equilibrio? A sinistra possono appollaiarsi più gru a diverse di- stanze: ora la somma dei pesi delle gru moltiplica- te per le loro distanze dal cuneo che fa da punto di appoggio è pari al prodotto del peso della rana per la sua distanza dal cuneo. Laltalena è in equilibrio. Più semplicemente, basta spostare il fulcro dellal- talena: ora la distanza della rana, moltiplicata per il suo peso, pareggia il peso della gru moltiplicato per la distanza dal fulcro. Laltalena è in equilibrio. Il fulcro è il baricentro dellaltalena

18 Media aritmetica come baricentro La media aritmetica ponderata è il baricentro di una v.s.: essa cioè si situa nel punto di equilibrio centrale della distribuzione, così che la somma delle modalità (distanze dal fulcro) alla sua sinistra, ponderate per le rispettive numerosità (pesi), pareggia la somma delle modalità alla sua destra, ponderate per le rispettive numerosità. la somma degli scarti semplici delle modalità osservate dalla media aritmetica, ponderati per le rispettive frequenze (o numerosità) è zero Algebricamente questa proprietà si esprime così: "la somma degli scarti semplici delle modalità osservate dalla media aritmetica, ponderati per le rispettive frequenze (o numerosità) è zero" Infatti: C.V.D.

19 Un esempio xixi nini x i n i (x i -m)(x i -m)n i -11, ,87 28, ,35 78, , m=21,739 Nota: La proprietà è soddisfatta sia ponderando con le numerosità che pe- sando con le frequenze relative. La media aritmetica è lunica media che possiede questa proprietà. Verifichiamo la proprietà della media come baricentro con un esempio già conosciuto:

20 Il concetto di funzione di perdita Supponete che una grande azienda di abbigliamento basi la propria pro- duzione di giacche sulle statistiche dellufficio Leva nazionale, da cui ri- sulta che la taglia media dei giovani italiani è la 48. Lazienda produca allora giacche giovanili solo di taglia 48. I giovani di taglia 46 ci staranno larghi, i 50 stretti e brontoleranno. Ma tutti gli altri (i 44, i 52..) si incavoleranno proprio e cambieranno marca.. funzione di perdita Data un v.s. X e un indice di posizione, misuro la perdita di informazione con una "funzione di perdita": L(S k ) = L(x k – ) k > 0 k, per k = 1,...N Ci sono tante "leggi di perdita secondo il valore di k. Per esempio: scarti assoluti: L(S k )=|x k –|; o scarti quadratici: L(S k )=(x k –)² DANNO Scegliamo la media che minimizza il danno Data una funzione di perdita definita per un k definiamo DANNO la media aritmetica della perdita. Scegliamo la media che minimizza il danno.

21 Media aritmetica come misura di minimo danno La media aritmetica è la misu- ra di posizione che rende mini- ma una funzione quadratica di perdita di informazione. = i (x i -) 2 f i min m La media m è il valore di in cui la funzione quadratica pervie- ne al suo minimo. In tal punto la tangente alla curva (cioè la deri- vata) ha pendenza nulla. Quindi: =min dove d/d =0

22 Medie di miscugli Torniamo allesempio delle province secondo il tasso di disoccupazione x i |-x i+1 xixi niTniT x i n i T 0–52,51537, ,544330, ,525312, ,0 Italia ,0 xixi niNniN x i n i N 2,51537,5 7,536270,0 12,5450,0 2000,0 Nord55357,5 xixi niSniS x i n i N 2,500,0 7,5860,0 12,521262, ,0 Sud45642,5 Nel nord le 55 province hanno un tasso medio m N (x)=357,5/55=6,5 Nel sud le 45 province hanno un tasso medio m S (x)=642,5/45= 14,278 In Italia le 100 province hanno un tasso medio m T (x)=1000/100= 10 Ma il tasso nazionale si ottiene anche come media ponderata dei tassi delle due ripartizioni: m T (x)= [m N (x)n N. m S (x)n S ]/N. In generale: La media di un miscuglio è pari alla media delle medie delle singole subpopolazioni, ponderate per le rispettive numerosità.

23 Variabili qualitative: la moda e il suo calcolo xixi nini fifi Sufficiente336790,667 Insuff. 3 mesi62910,124 Insuff. 6 mesi105740,209 X=acqua corr ,000 xixi nini fifi Sinistra200,113 Centrosin.450,254 Centro390,220 Centrodes.590,290 Destra200,113 X=deputati1771,000 Per variabili qualitative la Moda è la modalità con la massima frequenza.

24 Calcolo della moda per variabili quantitative xixi nini fifi 10350, , , ,00 m=21,74 x i -x i+1 nini M x =15,6 Per v.s. discrete la Moda è il valore più frequente- mente osservato. Per v.s. per classi Moda è la semisomma della clas- se con massima densità di frequenza h i =n i / i 5,50 15,00 12,60 3,83 Md=12,5 Md=10 Max h i = 15,00 Md = (11+14)/2 = 12,5

25 Proprietà della moda Variabile bimodale La moda (Md) è la modalità a cui corrisponde la massima frequenza (v.s. discrete) o la massima densità di frequenza (v.s. per classi) La moda (Md) è la modalità a cui corrisponde la massima frequenza (v.s. discrete) o la massima densità di frequenza (v.s. per classi)(si distingue una classe modale (max den- sità) e un valore modale (valore centrale classe). più di una moda Un fenomeno può avere più di una moda; si dirà bi-modale, tri-modale, amodale (tutte le modalità con uguale frequenza). La moda è data a ogni livello di misurazioneMa non soddisfa la proprietà di monotonicità. La moda è data a ogni livello di misurazione.Ma non soddisfa la proprietà di monotonicità. Esempio: Nel tema in classe ci sono stati 10 quattro, 11 cinque, 6 sei, 2 sette, 1 otto. Md=5, M=5,1. Se il prof alza due voti da 5 a 6, M=5,17 ma Md=4. Il fatto è che la moda non coinvolge nel conto tutte le modalità. Per lo stesso motivo la moda di un miscuglio si comporta in modo imprevisto (pensate a un corridore al Giro che vince la classifica a punti senza vincere neanche una tappa)


Scaricare ppt "LEZIONE A.4 Modalità rappresentative TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli."

Presentazioni simili


Annunci Google