STATISTICA ASSISTITA Esercitazione dott.ssa Clelia Cascella
Argomenti della lezione Descrizione statistica dei dati: –INDICI DI SINTESI: medie razionali (media aritmetica, media geometrica e media armonica) medie di posizione (moda, mediana, primo e terzo quartile) VAI, VAS e box plot –MISURE DI VARIABILITA’: variabilità assoluta (varianza, scarto quadratico medio, ecc.) variabilità relativa (coefficienti di variazione, rapporto di concentrazione, ecc.)
Come affrontare un esercizio Capire l’obiettivo dell’esercizio Scegliere gli strumenti statistici migliori tenendo a mente l’obiettivo cognitivo la natura dei dati (disponibili nel testo dell’esercizio) Individuare e calcolare le informazioni mancanti In vostro aiuto vi è anche il formulario (disponibile sul CD- ROM e sul sito del prof. Perna alla voce “materiale di supporto)
Misure di sintesi: 3 tipologie da tenere bene a mente Distribuzione per unità Distribuzione di frequenza Distribuzione in classi AdolescentiPeso Gemma67 Flora57 Giuseppe85 Antonio86 Carla61 Giulia57 Fabio91 totale504 Classi d’etàPopolazione 0 – – – – – – – Totale etàstudenti tot372
Tipo 1: distribuzione per unità AdolescentiPeso Gemma67 Flora57 Giuseppe85 Antonio86 Carla61 Giulia57 Fabio91 totale504 x n = determinazioni della variabile N= numerosità del collettivo
Tipo 2: distribuzione di frequenze x n = determinazioni della variabile n i = frequenze N= numerosità del collettivo etàstudentietà* freq tot Metodo I. Calcolare le frequenze assolute cumulate ed individuare il valore mediano, cioè quello associato alla posizione n/2. Metodo II. Calcolare le frequenze relative cumulate ed individuare il valore mediano, e cioè quello corrispondente al valore immediatamente superiore allo 0,5.
Calcolo della mediana etàfrfr ass cum etàfrfr relfreq rel cum 24260, ,0650, ,0510, ,1210, ,0990, ,1750, ,0910, ,0460, ,0810, ,1180, ,0831, Il valore mediano è quello associato alla posizione n/2 372/2=186 che cade nell’6° posto delle frequenze cumulate. Il valore 186 è maggiore di 151. Esso è quindi contenuto qui Il valore modale associato è quindi
Tipo 3: distribuzione in classi classi di età pololazio nev.c.v.c. * fr ampiezza classed.frelativecumulate ,360, ,210, ,430, ,000, ,710, ,790, ,640, ,00 xixi nini LiLsNi b)Determino di ciascuna classe il valore centrale Li+Ls 2 c)Moltiplico il v.c. per la frequenza della rispettiva classe d)Calcolo l’amipiezza della classe Ls-Li e)Trovo la densità di frequenza rapportando n i /a.c. f)Relativizzo le frequenze n i /N i g)Cumulo le frequenze mimi m i * nini
classi di etàpopolazionev.c.v.c. * frampiezzad.f fr rel fr cum ,360, ,210, ,430, ,000, ,710, ,790, ,640, ,00 m i = valore centrale n i = frequenze N =collettivo Q1 1/4N42540 L inf 15 Σfq Fq c14 Q123,85 Mediana N/ L inf 30 Σf56344 Fmed36748 c14 Me40,95 Q3 3/4N L inf 45 Σfq Fq c14 Q358,78
Moda L115 |Δ1|18730 |Δ2|825 |Δ1|+|Δ2 | amp classe14 classi di etàpololazionev.c.v.c. * fr Ampiezza classerelativecumulate , , , , , , , ,00 Limite inferiore della classe modale Freq classe modale MENO freq. classe premodale Freq. classe modale MENO freq. classe postmodale
Frequenze Classe modale Classe mediana Classe 1 quartile Classe 3 quartile Istogramma Classi
spesafreq.v.c.vc*freqampd.f.freq. rel%freq. cum ,5487,513250,022, ,750,044, ,750,1515, ,200,5555, ,10,2121, ,000, , Mediana16,38 N/26235 Linf10 Σf cl_premediana f cl_mediana c13 Q1Q1 10,48 1/4N3117,5 Linf10 Σf cl_prequartilica f cl_quartilica c13 Q3Q3 22,29 3/4N9352,5 Linf10 Σf cl_prequartilica f cl_quartilica c13 Moda = 12,71 L1 10 |Δ1| 4899 |Δ2| 4155 |Δ1|+|Δ2 | 9054 d 5 L1 10 Limite inferiore della classe modale Freq classe modale MENO freq. classe premodale Freq. classe modale MENO freq. classe postmodale
Eventuali outliers Valore adiacente superiore Eventuali outliers Valore adiacente inferiore Q3 Terzo quartile Q1 Primo quartile Mediana scala di misurazione del carattere La costruzione di un boxplot consente di rappresentare visivamente alcune caratteristiche fondamentali di una distribuzione statistica: il grado di dispersione dei dati; la simmetria; la presenza di valori anomali. Il confronto tra boxplot riferiti a diverse condizioni (es. temporali o spaziali) consente inoltre di effettuare valutazioni ulteriori (es. dinamiche). Richiami teorici
Q3 – Q1 = r differenza interquartilica Si definisce: Valore adiacente superiore (VAS) il valore osservato più grande che sia inferiore o uguale a Q r quindi VAS ≤ Q r Valore adiacente inferiore (VAI) il valore osservato più piccolo che sia superiore o uguale a Q1 – 1.5r quindi VAI ≥ Q1 – 1.5r I valori esterni a questi limiti sono definiti valori anomali (outliers). Nella rappresentazione grafica del boxplot sono segnalati individualmente, poiché costituiscono una anomalia rispetto agli altri dati della distribuzione. I valori che si discostano dal quartile di riferimento tra 1,5 e 3 volte la distanza interquartilica possono essere considerati nella norma; quelli che si discostano oltre 3 volte meritano una verifica ulteriore, per escludere con sicurezza banali errori di misura o trascrizione.
Frequenze/ampiezze: densità Classi di modalità 0,50-2,00 2,00-6,00 6,00-10,00 10,00-15,00 15,00-25, ,00 Classe 1 quartile Classe mediana Classe 3 quartile Classe modale VAIQ1-1,5*(Q3-Q1)3,38 VASQ3+1,5*(Q3-Q1)21,54 Q1Q1 Mediana Q3Q3 10,4816,3822,29 3,3821,54
La media armonica Data la seguente tabella si vuol sapere quanto tempo dura, mediamente, ogni quaderno. Durata quadernoAlunni ReciprociRec*ni 826 0,133, ,103, ,081, ,071, ,062, ,061,28 Totale148 12,41 Ci consente di mediare i rapporti i cui termini hanno tendenze inversamente proporzionali all’interno di un fenomeno (in questo caso “uso/durata”). Xi nini 1/ x i
La variabilità Variabilità assolutaVariabilità relativa campo di variazione; campo di variazione medio; differenza media. coefficienti di variazione rapporto tra indice di variabilità assoluta e la media scostamento semplice medio; varianza; scostamento quadratico medio; semidifferenza interquartile (equidistanza tra i quartili e la mediana). rapporto di concentrazione
Variabilità assoluta: la varianza classi di etàpopolaz.v.c.vc*frvc^2fr*(vc^2)
Alternativamente Somma dei quadrati degli scarti dalla media*frequenze Totale delle frequenze classi di etàpololazionev.c. Xi-M(Xi-M) 2 (Xi-M) 2 * ni ,041227, , ,04401, , ,0425, , ,9699, , ,96623, , ,961596, , ,963020, , , ,06 Scarti fra Xi e media Quadrati degli scarti Quad. degli scarti * freq.
Gli argomenti della prossima esercitazione Variabilità relativa la CONCENTRAZIONE Metodo dei trapezi Metodo di Gini Rapporti statistici Numeri indice Introduzione alla curva Normale N.B. Al fine di velocizzare le esercitazioni, le slide successive contengono i testi degli esercizi che verranno svolti durante la prossima esercitazione
Concentrazione – metodo dei trapezi classi di retibuzioneaziende
Concentrazione – metodo di Gini soggettiReddito (in migliaia di €) Enrica174 Fabio190 Giovanni198 Carlo203 Clelia238 Luca
Numeri indice anniprezzo lavatrici
Introduzione alla curva Normale Il tempo impiegato per la produzione di un certo componente si distribuisce secondo una Normale con media 45 minuti e S.Q.M. 9 minuti. Determinare, in una produzione di 1000 pezzi, il numero dei pezzi che hanno richiesto oltre un'ora di lavorazione (60 minuti).
Per la prossima volta Rifare gli esercizi visti oggi, calcolando per ciascuno di essi tutti gli indici proposti in questa esercitazione. Svolgere altre tracce (gli Excel contenuti nel CD- ROM vi guideranno passo per passo spiegandovi cosa fare e come commentare il risultato!!) Per qualsiasi problema, il prof. Perna ed io siamo in dipartimento negli orari pubblicati on line.