LEZIONE A.10 Simmetria e ‘normalità’

Slides:



Advertisements
Presentazioni simili
Misure ed Errori Prof Valerio CURCIO.
Advertisements

ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
- le Medie la Moda la Mediana
LIMITI:DEFINIZIONI E TEOREMI
8) GLI INTERVALLI DI CONFIDENZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Le distribuzioni di probabilità continue
Distribuzione Normale o Curva di Gauss
Intervalli di confidenza
LA DISTRIBUZIONE NORMALE
Lez. 3 - Gli Indici di VARIABILITA’
Tecniche quantitative per l’analisi nella ricerca sociale
Definizione (rigorosa) di limite
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 4: La funzione di Gauss
STATISTICA a.a PARAMETRO t DI STUDENT
Esercizi x1=m-ts x2=m+ts
Il prodotto vettoriale
MONOTONIA IN ANALISI MATEMATICA
Studio funzioni Premesse Campo esistenza Derivate Limiti Definizione di funzione Considerazioni preliminari Funzioni crescenti, decrescenti Massimi,
METODI E CONTROLLI STATISTICI DI PROCESSO
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
IL PERIODO DELLE FUNZIONI GONIOMETRICHE
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Gli indici di dispersione
Lezione B.10 Regressione e inferenza: il modello lineare
LEZIONE A.2 La produzione del dato TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.
Misure ed Errori.
Accenni di analisi monovariata e bivariata
“Teoria e metodi della ricerca sociale e organizzativa”
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
STATISTICHE DESCRITTIVE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
“Teoria e metodi della ricerca sociale e organizzativa”
La variabile casuale (v.c.) è un modello matematico in grado di interpretare gli esperimenti casuali. Infatti gli eventi elementari  che compongono lo.
Elementi di statistica Le cifre significative
Intervalli di confidenza
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
La curva di Gauss Prof. Marco Lombardi.
La distribuzione campionaria della media
Elaborazione statistica di dati
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
6. LIMITI Definizione - Funzioni continue - Calcolo dei limiti
ANALISI E INTERPRETAZIONE DATI
Forma normale delle equazioni di 2° grado Definizione. Un'equazione di secondo grado è in forma normale se si presenta nella forma Dove sono numeri.
(II) Concavità e flessi
TRATTAMENTO STATISTICO DEI DATI ANALITICI
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Analisi matematica Introduzione ai limiti
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Teoremi sulle funzioni derivabili 1. Definizione di massimo globale x0x0 f(x 0 ) Si dice massimo assoluto o globale di una funzione il più grande dei.
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Introduzione all’inferenza
Gli Indici di VARIABILITA’
Transcript della presentazione:

LEZIONE A.10 Simmetria e ‘normalità’ TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.10 Simmetria e ‘normalità’

In questa lezione.. In questa lezione faremo tesoro dei risultati già ottenuti, e compiremo altri passi utili per rifinire la nostra capacità di analizzare una variabile: Dapprima applicheremo la trasformata standard su esempi di distribuzioni differenti, per imparare a cogliere le differenze di forme al di là dell’ordine di grandezza e della misura di dispersione. Daremo a questo punto una definizione della proprietà di simme-tria o asimmetria di una variabil, e ne indicheremo una misura. C’è una distribuzione simmetrica per eccellenza, di fondamentale importanza in Statistica (soprattutto per l’inferenza): la distri-buzione Normale o di Gauss. Ne faremo la conoscenza. Impareremo infine a usare i valori tabulati delle frequenze sottese alla distribuzione Normale ‘ridotta’ (standardizzata) per stimare – conoscendo solo media e deviazione standard di una variabile – la frequenza di osservare valori entro o fuori di una qualunque ‘regione di accadimento’.

La forma delle distribuzioni: un esempio xi-xi+1 ni hi 0,4-0,8 400 1000 0,8-1,2 2000 5000 1,2-1,6 4000 10000 1,6-2,0 1600 2,0-3,0 3,0-4,0 600 4,0-6,0 200 zi-zi+1 hi -1,43--1,00 930 -1,00--0,57 4651 -0,57--0,14 9302 -0,14- 0,29 3721 0,29- 1,35 943 1,35- 2,42 561 2,42- 4,56 187 Densità ricalco-late! Diecimila coscritti secondo il reddito familiare m=1,732; =0,9365; Me=1,46; Md=1,40 Osserviamo una leva di coscritti secondo il reddito familiare. La trasformata stan-dard mostra un addensamento a sinistra, compensato da una lunga coda a destra.

Due caratteri, una popolazione xi-xi+1 ni hi 50-58 20 2,5 58-66 400 50,0 66-74 1400 175,0 74-82 2900 362,5 82-90 2100 262,5 90-98 2700 337,5 98-114 480 30,0 10000 zi-zi+1 hi -3,20--2,43 26 -2,43--1,67 526 -1,67--0,91 1842 -0,91--0,15 3816 -0,15- 0,62 2727 0,62- 1,38 3553 1,38- 2,91 314 Densità ricalco-late! Diecimila coscritti secondo il peso m=83,535; =10,483; Me=83,07; Md=78 E’ ragionevole che i redditi siano distri-buiti in modo ineguale, asimmetrico. Invece la distribuzione del peso sembra più centrata intorno alla media: essa mo-stra però una marcata polarizzazione. La trasformata standard la evidenzia.

Confrontare la forma standardizzando Se sovrappongo le due di-stribuzioni standardizzate, fa-cendo attenzione a uniforma-re le scale degli assi (quello orizzontale con i valori z, quello verticale con le densità ricalcolate), possiamo ora co-gliere le differenze nella forma delle v.s. depurate dall’influenza sia dell’or-dine di grandezza che del-la dispersione, ora tenute sotto controllo. Ma quali altri caratteri della forma di una distribuzione possono essere catalogati? La distribuzione dei redditi è ‘asimme-trica’, quella del peso molto meno Blu:reddito Rosso: peso Dopo l'ordine di grandezza e la dispersione, la terza proprietà fondamentale della forma di una variabile è la asimmetria.

Una distribuzione ‘simmetrica’ xi-xi+1 ni hi 140-150 62 6,2 150-160 606 60,6 160-170 2417 241,7 170-180 3830 383,0 180-190 190-200 200-210 10000 zi-zi+1 hi -3,36--2,40 65 -2,40--1,44 631 -1,44--0,48 2518 -0,48- 0,48 3990 0,48- 1,44 1,44- 2,40 2,40- 3,36 Diecimila coscritti secondo la statura m=175; =10,391; Me=175; Md=175 Consideriamo un terzo carattere. La di-stribuzione delle stature (Quetelet insegna) dà veramente una sensazione di simmetria…

Un’altra distribuzione ‘simmetrica’ xi-xi+1 ni hi 75-85 1450 145 85-95 1400 140 95-105 105-115 1500 150 115-125 125-135 135-145 10000 zi-zi+1 hi -1,75- -1,25 2900 -1,25- -0,75 2800 -0,75- -0,25 -0,25– 0,25 3000 0,25 – 0,75 0,75 – 1,25 1,25 –1,75 m- m+ Coscritti secondo il Quoziente di Intelligenza m=110; =20,02; Me=110; Md=110 Ma anche la distribuzione dei Q.I. dà la stessa sensazione. Come definire allora la simmetria o asimmetria di una variabile? E, se è possibile, come misurarla?

Come definire la simmetria Il concetto di simmetria implica un polo centrale della distribuzione, ri-spetto a cui si osservi questa proprietà. Immaginiamo il profilo della distri-buzione di una v.s. come il fondale di un palcoscenico chiuso da un sipario. Man mano che il sipario si apre (quindi a pari distanza a sinistra e a destra del centro del palco) il profilo varia ma sempre con pari altezza sui due lati. Un sipario è sempre di velluto rosso

Una definizione più formale Diamo allora una definizione più formale. Anzitutto noi non sappiamo defi-nire la asimmetria in sé, ma solo come assenza di simmetria. Una distri-buzione è asimmetrica se non è simmetrica. In generale: Una distribuzione è simmetrica rispetto a un polo se per ogni mo-dalità xi =  + k ne esiste una speculare xj=–k con la medesima frequenza: È abbastanza intuitivo che se X è simmetrica allora il polo centrale deve coincidere sia con la mediana (il ‘valore di mezzo’) che con la media aritmetica (il ‘baricentro’). Cioè  = M(X) = Me(X). Se poi la distribuzione è, come si dice, ‘regolare’ (cioè ha un unico valore modale), la simmetria comporta la sovrapposizione delle tre misure cen-trali m=Me=Md. Su questa ultima proprietà si basa una misura della asimmetria come scostamento dalla perfetta simmetria. 

Definire la asimmetria Curva skew destra Curva skew sinistra Definiamo asimmetria “positiva" (skewness destra) quella di una distribuzione regolare che presenta una co-da a destra di valori lontani dalla media e un massimo spo-stato a sinistra ri-spetto al baricentro. Definiamo asimmetria "negativa" (skewness sinistra) quella di una distribuzione regolare che presenta una co-da a sinistra di valori lontani dalla media e un massimo spo-stato a destra ri-spetto al baricentro. Rispetto alla situazione di perfetta simmetria possiamo distinguere due situazioni opposte

Misurare la asimmetria media=mediana=moda Sk  0 moda Sk 0 moda mediana Sk = 0 mediana media media La differenza (m-Me), depurata dell’effetto della dispersione dei dati divi-dendola per ) è allora u-na buona misura di asim-metria, detta skewness: In caso di skewness destra la media (nel cui calcolo entrano tutte le xi incluse le più alte) è trascinata più a destra della me-diana, a sua volta più a destra della moda: Md  Me  m (m-Me)  0 Analogamente in caso di skewness sinistra la media (che coinvolge anche le xi più basse) è trascinata più a sini-stra della mediana, a sua volta più a sini-stra della moda: m  Me  Md (m-Me)  0 Sk = (m-Me)/  NB: lo skewness non è misura normalizzata tra 0 e 1 (altre lo sarebbero).

Un miscuglio, due distribuzioni xi-xi+1 ni 50-58 20 58-66 300 66-74 1100 74-82 2140 82-90 90-98 98-114 40 5000 Sottogruppo con alto red-dito secondo il peso m=78,13; =8,164 Me=78,04; Md=78 Sk=+0,011 La distribuzione del pe-so tra i 10mila coscritti aveva forma bipolare e una certa asimmetria positiva (Sk=+0,044). Ma essa ‘mischia’ due popolazioni distinte in base al reddito, con dif-ferenti m,  e Sk xi-xi+1 ni 50-58 58-66 100 66-74 300 74-82 760 82-90 1000 90-98 2400 98-114 440 5000 Sk=-0,226 Sottogruppo con basso red-dito secondo il peso m=88,94; =9,69 Me=91,13; Md=94

Una distribuzione tutta particolare xi-xi+1 ni 140-144 9 144-146 10 146-148 16 148-150 27 150-152 45 152-154 72 154-156 108 156-158 159 158-160 222 160-162 300 162-164 389 164-166 484 166-168 579 168-170 665 170-172 736 172-174 781 174-176 796 xi-xi+1 ni 176-178 781 178-180 736 180-182 665 182-184 579 184-186 484 186-188 389 188-190 300 190-192 222 192-194 159 194-196 108 196-198 72 198-200 45 200-202 27 202-204 16 204-206 10 206-210 9 10000 m+2=195 m-2=155 mx=175 m-=165 m+=185 xi Torniamo alla distribuzione delle stature e disaggreghiamo le classi. L’istogramma as-sume forma simmetrica e campanulare. Se facciamo tendere gli intervalli i di base a misure infinitesime..

La distribuzione Normale o di Gauss Va sotto il nome di Gauss la legge di frequenza di una v.s. continua, dalla forma simmetrica e campanulare, per la quale sono stati dimostrati fondamentali risultati di convergenza, tanto da farne una legge di riferimento o “Normale”. Una distribuzione Normale con media m e deviazione standard  (la indicheremo con N(m,) possiede queste proprietà: Ha forma simmetrica e campanulare Dipende da due parametri che corri-spondono alle statistiche m e  Tende asintoticamente a zero per x È unimodale, con massimo in x=m=Me Ha due punti di flesso (dove cambia o-rientamento la concavità della curva) in x=m  N(m, ) m m-2 m+2 m- m+

Due buoni motivi di interesse Ci sono almeno due motivi di interesse per la N(m,). Il primo è che già Gauss la identifica come legge di distribu-zione degli errori accidentali intorno a una misura centrale. Il teorema del limite centrale, formulato nel ‘900, indica nella Normale la legge a cui converge la somma di un numero crescente di ‘esperimenti’ ripetuti, qualunque sia la loro distribuzione. Il secondo motivo è che la legge di densità dipende solo dai due parametri m e  (e,  e 2 = costanti!), interni alla distri-buzione stessa. Quindi se noi standardizziamo le modalità di una distribuzione osservata, qualunque ne sia la forma, la di-stribuzione così ‘ridotta’ N(0,1) non dipende da nessun parametro. Insomma, una distribuzione ‘universale’! zi

La distribuzione Normale ridotta Ripetiamo questo concetto, così utile e importante. Se noi constatiamo, o sappiamo per certo (o almeno ipotizziamo) che il carattere X si distribui-sce secondo una Normale di media m e deviazione standard (lo scriviamo così: X~N(m;)), e consideriamo i valori standardizzati z=(x-m)/ questi si distribuiranno ancora secondo una Normale, ma con media m=0 e deviazione standard =0 (e lo scriviamo così: Z ~ N(0,1)). 34,1% 34,1% Quindi la distribuzione normale standardizzata ha legge di den-sità fissa qualunque sia la distri-buzione N(m,) di partenza. L’area sottesa alla curva in un qualunque intervallo dato è quindi fissa e tabulabile. Per esempio: f(-1<x<1)=68,2% 13,6% 13,6% 2,3% 2,3% m m-2 m- m+ m+2 zi

La tavola della Normale ridotta Per usare la tavola della Normale ridotta N(0,1) si cerca nella prima colonna (intero e primo decimale) e prima riga (secondo deci-male) l’estremo superiore di un intervallo 0<Z<z (dove z=0 corrisponde al valore medio): all’incrocio tra riga e colonna di entrata si indi-vidua la frequenza di quella regione: f(0<Z<z)=(z). Se z=1,96 (z)=0,475

(z)=f(0<Z<z)= f(-z<Z<0)=(-z) Un primo esempio Abbiamo visto che la statura di diecimila coscritti si distribuisce secondo una Normale, con m=175 e =10,39. Senza dover avere sottomano l’intera distribuzione mi bastano questi due parametri e l’ipotesi che X ~ N(m,) Per stimare per es. la frequenza di coscritti di statura compresa tra 175 (media) e 190 cm. Occorre anzitutto trasformare l’intervallo in valori z: Se x=190 allora z=(190-175)/10,39=1,44 Nella tavola in corrispondenza di z=1,44 trovo (z)=f(0<Z<z)=0,4251. Dunque le stature tra 175 (media) e 190 capitano nel 42,5% dei casi. (-z)=42,5% (z)=42,5% E se avessi voluto stimare la frequenza di stature comprese tra 160 e 190 cm., cioè 15 cm sopra e sotto la media? Niente di più facile, visto che la curva è simmetrica e (z)=f(0<Z<z)= f(-z<Z<0)=(-z) Quindi f(-z<Z<z)=2(z)=85%

Un secondo esempio Prendiamo ora la distribuzione del peso dei coscritti. Supponiamo di non avere l’intera distribuzione ma solo i parametri m=83,5 e =10,5. Per avere una stima della frequenza di osservazioni compresi tra 82 e 90 chili, facciamo la solita ipotesi che X ~ N(m,). Ora però l’intervallo non è centrato sulla media (è spostato a destra). Calcoliamo separatamente due frequenze (sapendo che (-z)= (z)): f{m<X<90}=f{0<Z<(90-m)/)}=f{0<Z<0,62}=(0,62)=0,2324 f{82<X<m}=f{(82-m)/<Z<0}=f{-0,14<Z<0}=(-0,14)=(0,14)=0,0557 f{82<X<90}= (0,62)+ (0,14)=0,2324+0,0557=0,288=28,8% (0,62)=23,2% (-0,14)=5,6% In base all’ipotesi di normalità di X si stima che tra 82 e 90 chili stia il 29% dei casi. In realtà la v.s. X ha un ‘buco’ proprio in quella classe che contiene solo il 21% delle osservazioni. Ma più di così non potevamo fare!

Un ultimo esempio A volte siamo interessati a stimare la frequenza di casi non entro una data re-gione, bensì al di fuori di essa. Per es.: La frequenza dei bocciati La frequenza di frecce scagliate fuori bersa-glio (troppo a destra e troppo a sinistra)… Sappiamo che la distribuzione del peso dei coscritti ha m=83,5 e =10,5. Fissia-mo una soglia critica a k=m+2=104,5 chili e chiediamo: date le diverse di-stribuzioni per alti e bassi redditi, quale sarà nei due casi la frequenza di ragaz-zi sovrappeso? Detto k* il valore stan-dardizzato (k-m)/, vale la relazione: (k*) 0,5-(k*) Alto reddito: m=78,1; =8,16 K*=(104,5-78,1)/8,16=3,23 ½ - (3,23)=0,5 – 0,4995  0 Basso reddito: m=88,9; =9,69 K*=(104,5-88,9)/9,69=1,61 ½ - (1,61)=0,5 – 0,4463=5,4% f(X>k)=f(Z>k*)=f(0<Z<)-f(0<Z<k*)=(+)- (k*)=0,5 - (k*)

Un confronto con Cebicev L’assunzione di normalità di una distri-buzione, la standardizzazione di una variabile e l’uso della tavola della N(0,1) ci consentono, dati solo m e , di avanzare una valutazione della frequenza di osser-vazioni in un certo intervallo: f{m-z<X<m+z}= f{-z<Z<z}=2(z) Con un po’ di esercizio si può valutare qualunque frequenza, interna o esterna a una data regione, a sua volta centrata intorno alla media o no. La valutazione così ottenuta della fre-quenza f{|x-m|z} (espressione equiva-lente a quella sopra) è comunque assai più elevata del ‘pavimento’ fissato dal teorema di Cebicev [=1-(1/z2)]. z 2(z) 1-(1/z2) 1,0 68,3% 1,5 86,6% 55,5% 2,0 95,4% 75,0% 2,5 98,8% 84,0% 3,0 99,7% 88,9%