Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità (maschio e femmina; viaggio per lavoro, per vacanza, per studio, ecc…) I caratteri si distinguono in: Qualitativi sconnessi (sesso, luogo di nascita, colore degli occhi, luogo di destinazione di un viaggio,…) Qualitativi ordinati (titolo di studio, grado di soddisfazione, posizione in graduatoria, mese …) Quantitativi (numero di figli, pm percorsi, voto ad un esame, numero di posti letto…)
Caratteri (o variabili) Tipo di carattere Operazioni che posso fare Qualitativi sconnessi = Qualitativi ordinati =, >, < Quantitativi =, >, <, posso misurare di quanto è minore o maggiore
Matrice di dati X1 X2 X3 X4 X5 … Xp 1 X11 X12 X13 X14 X15 X1p 2 X21 6 X61 X62 X63 X64 X65 X6p n-1 Xn-11 Xn-12 Xn-13 Xn-14 Xn-15 Xn-1p n Xn1 Xn2 Xn3 Xn4 Xn5 Xnp
Distribuzione di frequenza La distribuzione di frequenza di una variabile è una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si presenta nei dati. Distribuzione di frequenza della variabile sesso Frequenza assoluta Frequenza relativa Frequenza percentuale Frequenza assoluta cumulata Frequenza relativa cumulata Frequenza percentuale cumulata nj fj pj Nj Fj Pj Maschi 4941 0.501 50.096 Femmine 4922 0.499 49.904 9863 1.000 100.0 Totale 1
Distribuzione di frequenza In un collettivo composto da n elementi una variabile statistica X può assumere k modalità diverse x1, x2, x3, …….. xp In modo che la modalità x1 si presenta n1 , la modalità x2 si presenta n2 …….. la modalità xk si presenta nk n1 + n2 + n3 + …….. + nk-1 + nn = n
I grafici Devo tenere conto di: Fenomeno oggetto di studio Tipo di variabile esaminata Distribuzione di frequenza Il grafico deve avere le proprietà della Chiarezza – immediatamente chiaro Accuratezza – presenza dell’unità di misura Proporzionalità – indicazioni sulle reali dimensioni del fenomeno Il grafico deve sempre contenere: Intestazione – titolo Variabili Unità di misura Fonte dei dati
I grafici – variabili sconnesse o qualitative ordinabili Grafici a barre – ogni modalità viene rappresentato da una barra (orizzontale o verticale) la cui lunghezza misura la frequenza (assoluta, relativa o %) Diagrammi circolari – sono a forma di cerchio (torta) - gli spicchi del cerchio sono proporzionali alle modalità da rappresentare. Per ottenere gli spicchi bisogna calcolare l’angolo corrispondente alla modalità (es: usando le frequenze percentuali si usa la proporzione 360° : 100 = ß : pj Diagrammi in coordinate polari – grafici circolari espressi in coordinate polari – indicati per rappresentare i fenomeni ciclici (giorni della settimana, mesi) Cartogrammi – per rappresentare le serie territoriali – cartine geografiche dove sono rappresentate le partizioni territoriali con sfumature differenti a seconda della frequenza Pictogrammi – grafico con finalità divulgative in cui figure e disegni e simboli simili al fenomeno considerato sono utilizzati con dimensione e numero variabile per indicare la frequenza
I grafici – variabili quantitative Istogramma – le classi possono essere di pari ampiezza o con ampiezza diversa. In questo caso la lettura del grafico si basa sulle aree delle colonne e non sull’altezza – dobbiamo calcolare la densità di frequenza (frequenza / ampiezza della classe) Diagrammi in coordinate cartesiane a canne d’organo – per caratteri quantitativi discreti Diagrammi in coordinate cartesiane ortogonali – grafico a linea, si usa per le serie storiche ponendo il tempo sulle ascisse e l’intensità del fenomeno sulle ordinate
Misure di tendenza centrale La distribuzione di frequenza è una descrizione completa della variabile cioè di come la variabile è distribuita nella popolazione In molte situazioni abbiamo bisogno di indici di sintesi della distribuzione MODA: è la modalità della variabile che si presenta nella distribuzione con maggiore frequenza Si può applicare a tutti i tipi di variabili
Misure di variabilità La moda segnala il valore maggiore, ma nulla ci dice su come è distribuita la variabile. Una variabile sconnessa ha una distribuzione massimamente OMOGENEA quando tutti i casi si presentano con la stessa modalità (il 100% del collettivo presenta una unica modalità) – è più omogenea quanto più essa è concentrata È massimamente eterogenea quando i casi sono equidistribuiti fra le modalità
Misure di tendenza centrale Data una distribuzione ordinata in senso crescente la mediana è il valore che biripartisce la distribuzione lasciando uguali numero di termini a destra e a sinistra MEDIANA: è la modalità mediana Si può applicare alle variabili ordinabili (non ai caratteri qualitativi sconnessi) Se n è dispari la mediana è il valore o la modalità che occupa la posizione (n+1)/2 Me = x(n +1)/2 Se n è pari la mediana è il valore o la modalità che occupa la posizione (n/2)+1 Me = (x(n /2) + x(n/2+1) )/2
Misure di tendenza centrale Data una distribuzione ordinata in senso crescente i quartili sono tre indici che dividono la distribuzione ordinata in 4 parti uguali. Il primo quartile (Q1) è il valore che lascia alla propria sinistra il 25% dei termini e il 75% alla destra. Il secondo quartile (Q2) coincide con la mediana, ed è il valore cha divide in due parti uguali la distribuzione. Il terzo quartile (Q3) è il valore che la scia alla propria sinistra il 75% dei termini e il 25% alla destra.
La media Data un insieme di valori quantitativi e un funzione f f (x1 , x2 , …. , xn ) si definisce media dei valori x1 , x2 , …. , xn secondo il criterio f quel valore M tale che f (x1 , x2 , …. , xn ) = f (M, M, , … , M ) La media M rappresenta il valore che sostituito ai singoli valori della distribuzione mantiene inalterato il totale. La media M è semrpe un valore interno all’intervallo di valori di xj cioè xmin <= M <= xmax
La media aritmetica La media aritmetica μ di un insieme di n valori x1 , x2 , …. , xn di un carattere quantitativo X è pari alla somma dei valori divisa per il loro numero μ =( x1 + x2 + …. + xn ) / n μ = (∑ xi ) / n
La media aritmetica Se la distribuzione del carattere è una distribuzione di frequenza la media aritmetica μ si calcola come una media ponderata, cioè sommando i prodotti delle singole modalità xj per j=1 , …. , k e le rispettive frequenze nj per j = 1 , …. , k diviso la numerosità del collettivo μ =( x1n1 + x2n2 + …. + xknk ) / n μ = (∑ xjnj ) / n Se ho le frequenze relative la formula diventa μ = ∑ xjfj
La media aritmetica La media aritmetica risente fortemente dei valori estremi della distribuzione. Se sono presenti valori anomali (outlier), il valore medio calcolato può non rappresentare bene la distribuzione. La media aritmetica è molto sensibile ai valori anomali. A volte si usa la media troncata (trimmed mean) ossia la media calcolata solo sui valori centrali della distribuzione La trimmed mean al 90% significa calcolare la media escludendo il 5% dei valori più piccoli e il 5% dei valori più grandi
Proprietà della media aritmetica La somma dei valori x1 + x2 + …. + xn è uguale alla media moltiplicata per il numero di unità A ∑ xi = nμ 2) La somma degli scarti positivi dalla media aritmetica è uguale in valore assoluto a quella degli scarti negativi e quindi la somma degli scarti (positivi e negativi) è uguale a zero Scarto (xi – μ) ∑ (xi – μ) = 0
Proprietà della media aritmetica 1) La media M è sempre un valore interno all’intervallo di valori di xj cioè xmin <= M <= xmax 2) La somma dei valori x1 + x2 + …. + xn è uguale alla media moltiplicata per il numero di unità n ∑ xi = nμ 3) La somma degli scarti positivi dalla media aritmetica è uguale, in valore assoluto, a quella degli scarti negativi e quindi la somma degli scarti (positivi e negativi) è uguale a zero Scarto (xi – μ) ∑ (xi – μ) = 0
Proprietà della media aritmetica 4) La somma dei quadrati degli scarti dalla media aritmetica è minore della somma dei quadrati degli scarti da qualsiasi numero c ≠ μ Scarto (xi – μ) Scarto (xi – c) ∑ (xi – c)2 = min per c= μ
Medie e Caratteri Tipo di carattere Medie che posso fare Qualitativi sconnessi Moda Qualitativi ordinati Moda, Mediana, Quartile Quantitativi Moda, Mediana, Quartile e Media
Variabilità La sola rappresentazione della distribuzione con gli indici di posizione e con le medie non consente spesso di descrivere la distribuzione. Si utilizzano allora delle misure di variabilità. La variabilità esprime la tendenza delle unità di un collettivo ad assumere diverse modalità del carattere Un indice di variabilità V(x) ha le seguenti proprietà: V(x) = 0 se tutte le unità presentano la medesima modalità V(x) > 0 cresce al crescere della diversità tra le modalità V(x + c) = V(x) + c aggiungendo una costante alle modalità di x la variabilità non cambia Se V(x) >= V(y) allora il carattere x è più variabile del carattere y
Variabilità 3 categorie di indici: Indici di dispersione intorno alla media Indici di disuguaglianza a coppie Indici di mutabilità che misurano l’omogeneità ed eterogeneità tra modalità UNA ULTERIORE DISTINZIONE in: Indici ASSOLUTI: utilizzano la stessa unità di misura della distribuzione e non consentono di fare confronti tra modalità espresse con unità di misura diverse Indici RELATIVI: depurano la distribuzione dell’unità di misura e sono adatti per operare dei confronti.
Variabilità rispetto ad una media Misura la presenza o no di una certa stabilità dei valori assunti dalle unità rispetto ad una media – indici si basano sul concetto di scarto o scostamento rispetto alla media delle varie unità La VARIANZA σ2 = (∑ (xi – μ)2 ) / n Se ho una distribuzione di frequenza la varianza sarà σ2 = (∑ (xj – μ)2 nj ) / n σ2 = ∑ (xj – μ)2 fj
Variabilità rispetto ad una media La DEVIANZA è la somma degli scarti al quadrato (è il numeratore della varianza) DEV = ∑ (xi – μ)2 La varianza ha il limite di utilizzare come unità di misura l’unità di misura del carattere elevata al quadrato Per questo si utilizza lo scarto quadratico medio o deviazione standard che è la RADICE QUADRATA della varianza
Coefficiente di variazione Le misure viste fino ad ora sono indici ASSOLUTI, ossia strettamente legati alle unità di misura È difficile fare dei confronti tra distribuzioni diverse Il più diffuso indice di variabilità relativa è il coefficiente di variazione (CV) che si ottiene dividendo la deviazione standard con la media CV = σ / μ Molto spesso il CV è espresso in termini % cioè moltiplicato per 100 CV = (σ / μ)*100
Campo di variazione Tra le misure che si basano sul confronto di misure caratteristiche della distribuzione c’è il CAMPO DI VARIAZIONE o RANGE Dato un insieme n di valori x1 , x2 , …. , xn ordinati il campo di variazione è la differenza tra il valore più grande e il più piccolo R = xn - x1 È un indice molto grezzo e molto sensibile ai valori anomali (è = 0 quando tutti i valori sono uguali e crescere al crescere della variabilità)
Differenza interquartile È un indice semplice ma che mitiga l’effetto dei valori anomali Dato un insieme n di valori x1 , x2 , …. , xn ordinati la differenza interquartile (DQ) è la distanza tra il terzo (Q3) e il primo (Q1) quartile DQ = Q3 - Q1 Se l’intervallo interquartilico è piccolo vuol dire che la metà delle osservazioni si trova intorno alla mediana, all’aumentare della distanza interquartilica aumenta la dispersione del 50% delle osservazione centrali intorno alla mediana