Elementi di Statistica Presentazione a cura della prof.ssa ANNUNZIATA DI BIASE Dicembre 2014
Statistica descrittiva e inferenziale Rappresentazioni grafiche indice Statistica descrittiva e inferenziale Rappresentazioni grafiche Indici di sintesi e di dispersione
Nota storica Il termine statistica ha una radice italiana e cioè deriva dalla parola “STATO”. Questa definizione apparve per la prima volta nel 1589 ad opera di Ghislin, che la indicò come “descrizione delle qualità che caratterizzano gli elementi che compongono uno Stato”. Nella sua prima eccezione, quindi, la statistica è principalmente lo studio di informazioni di interesse nazionale. Solo in un secondo momento, questa disciplina cominciò ad allargare i propri confini e ad assumere il significato più generale di analisi quantitativa dei fenomeni collettivi che hanno attitudine a variare.
STATISTICA La statistica è lo studio dei fenomeni collettivi (ossia di quei fenomeni che riguardano una pluralità di soggetti), che hanno attitudine a variare. Essa si occupa di raccogliere ed analizzare dati, relativi ad un gruppo di persone (studenti di una scuola, elettori di una regione, abitanti di un quartiere,…) o oggetti (automobili, dischi, libri,…) per trarre conclusioni e fare previsioni.
STATISTICA DESCRITTIVA E INFERENZIALE La statistica può essere: descrittiva o inferenziale. La statistica descrittiva: E’ un’ indagine che si occupa della raccolta, dell’elaborazione dei dati e della descrizione dei fenomeni collettivi o di massa. Essa si occupa di descrivere la massa dei dati sperimentali con pochi numeri o grafici significativi. Quindi, per così dire si occupa di fotografare una data situazione e di sintetizzarne le caratteristiche salienti. La statistica inferenziale o induttiva: Studia le modalità con cui è possibile estendere all’intero universo statistico le conclusioni di un’ indagine svolta su di un campione e permette di valutare il grado di attendibilità di tali conclusioni. Essa utilizza i dati statistici, anche opportunamente sintetizzati dalla statistica descrittiva, per fare previsioni di tipo probabilistico su situazioni future o comunque incerte.
Il lessico usato dalla statistica POPOLAZIONE STATISTICA o COLLETTIVITA’: insieme di elementi che presentano una o più caratteristiche comuni. CAMPIONE: gruppo di elementi su cui si compie l’indagine statistica e deve rappresentare la popolazione. UNITA’ STATISTICA: ogni elemento della popolazione. FENOMENI QUALITATIVI:fenomeni rappresentati attraverso le parole. FENOMENI QUANTITATIVI: fenomeni rappresentati attraverso i numeri. CARATTERE: aspetto che si va ad individuare durante un indagine statistica. MODALITA’: modalità di risposta che può essere qualitativo o quantitativo.
L’INDAGINE STATISTICA E LE SUE FASI Per INDAGINE STATISTICA si intende un’insieme di attività finalizzate ad approfondire la conoscenza di un fenomeno. Le sue FASI sono: IMPOSTAZIONE DELL’INDAGINE STATISTICA RILEVAZIONE DEI DATI SPOGLIO E TRASCRIZIONE DEI DATI 4. ELABORAZIONE DATI
1) IMPOSTAZIONE DELL’INDAGINE STATISTICA In questa prima fase occorre precisare: LO SCOPO DELLA RICERCA GLI OBIETTIVI CHE SI VOGLIONO RAGGIUNGERE LE UNITÀ STATISTICHE OGGETTO DI INDAGINI
Caratteri E MODALITA’ NATURA DEI CARATTERI In una rilevazione dei dati i caratteri stanno ad indicare l’ insieme dei fenomeni oggetto di studio riguardanti le caratteristiche che differenziano tra loro le unità statistiche. NATURA DEI CARATTERI I caratteri (dati raccolti) possono essere di natura QUANTITATIVA oppure QUALITATIVA. I caratteri o dati qualitativi (o mutabili) sono rappresentati da aggettivi (nazionalità, religione, ecc). I caratteri o dati quantitativi (o variabili) sono espressi da numeri (altezza, peso, ecc.). MODALITA’ DI UN CARATTERE Le modalità sono i diversi aspetti che un carattere può assumere. Esempio: M ed F sono le 2 modalità del carattere sesso.
Carattere quantitativo Discreto o discontinuo NATURA DI UNA MODALITA’ Carattere qualitativo Carattere quantitativo può essere può essere Discreto o discontinuo Ordinale o ordinato Nominale o sconnesso Continuo Le modalità NON si possono ordinare secondo una scala di misurazione. Le modalità si possono ordinare secondo una scala di misurazione. Le modalità sono numeri INTERI. Le modalità sono numeri REALI.
Carattere qualitativo nominale o sconnesso Esempi: Carattere: Sesso - modalità: M, F Carattere: Corso di Laurea – modalità: Medicina, Ingegneria, Giurisprudenza, Matematica,…. Carattere: Provincia – modalità: CZ, MI, NA, PA, RM Carattere: credo religioso – modalità: Cattolica, Mussulmano, Ebreo, Indù, Taoista,… Carattere qualitativo ordinale o ordinato Carattere: Giudizio – modalità: Sufficiente, Buono, Ottimo Carattere: Posizione graduatoria:- modalità: I II III IV Carattere: Classe Sociale - modalità: Bassa, Media, Alta Carattere: Titolo Studio – modalità: Nessuno, Elementare, Media inferiore, Media superiore, Laurea.
Carattere quantitativo discreto o discontinuo Esempi: Carattere: N° componenti famiglia – modalità: 1 2 3 4 5 6 7 8 Carattere: N° posti letto ospedale – modalità: 125 128 136 547 874 1258 2581 Carattere: Residenti comune – modalità: 854 1258 5890 6587 15897 178.985 458.547 Carattere quantitativo continuo Carattere: Precipitazioni in pollici a Torino nel mese di aprile (20 giorni) – modalità: 2.9 3.7 3.2 4.0 3.9 2.1 2.9 2.9 1.1 0.4 3.0 3.3 3.2 1.0 2.2 Carattere: Altezza maschi Italiani – modalità: 175,3 168,4 187,1 158,4 167,5 170.2 174,6 175.6
2) RILEVAZIONE DEI DATI – CARATTERI Per rilevare dati statistici, è fondamentale sapere esattamente COSA si vuole misurare e COME. In questa fase occorre individuare in modo PRECISO la caratteristica (CARATTERE) della popolazione che vogliamo sottoporre a studio. TECNICA DI RACCOLTA DEI DATI Tecnicamente, la raccolta dei dati può essere fatta in modi diversi: misurazioni, questionario ecc.., tuttavia la raccolta più seguita è quella dell’ INTERVISTA DIRETTA o INDIRETTA. L’intervista diretta prevede domande poste direttamente dall’intervistatore. L’intervista indiretta prevede il riempimento di un questionario a risposte aperte o chiuse che l’intervistato deve riempire in tutte le sue parti come il censimento (in Italia il censimento si effettua ogni dieci anni (anni in cui l’ultima cifra è 1, come l’ultimo che è stato rilevato nel 2011, i precedenti 2001,1991,…,1861 (anno dell’unità d’Italia)) il prossimo sarà nel 2021).
METODI DI RILEVAZIONE DEI DATI La rilevazione dei dati può essere effettuata su tutta la popolazione oggetto di studio, cioè su tutto l’UNIVERSO, oppure su una porzione di esso, cioè su un CAMPIONE. Gli elementi della popolazione studiata prendono il nome di UNITA’ STATISTICHE.
Questionario sull’impiego del tempo libero Dati specifici Esempio di intervista indiretta: Questionario sull’impiego del tempo libero Dati specifici 6 Pratichi uno sport SI NO 8 Ascolti la musica SI NO 9 Suoni qualche strumento SI NO 11 Guardi la televisione SI NO 12 Frequenti discoteche SI NO 13 Vai al cinema SI NO 14 Ti dedichi alla lettura SI NO 15 Coltivi qualche hobby Si NO 16 Pratichi volontariato SI NO Dati generali 1 Cittadinanza ................ 2 Sesso M F 3 Età ................ 4 Peso ................ 5 Altezza .................
DISTRIBUZIONE STATISTICHE Una distribuzione statistica serve ordinare e classificare i soggetti secondo un certo criterio. Le distribuzioni statistiche derivano dall’operazione di classificazione delle unità considerate secondo le modalità di uno o più caratteri. Se si riferisce ad un solo carattere la distribuzione statistica si definisce SEMPLICE. Se si riferisce a 2, 3,….N caratteri allora la distribuzione statistica si definisce DOPPIA, TRIPLA,…MULTIPLA. Se il carattere considerato è qualitativo la distribuzione statistica si chiama anche SERIE STATISTICA. Se il carattere è quantitativo allora si parla di SERIAZIONE STATISTICA.
ORGANI PREPOSTI ALLA RACCOLTA DEI DATI La raccolta dei dati può essere fatta da CHIUNQUE abbia interesse a fare una ricerca statistica. In Italia l’organo più importante che si occupa della raccolta dei dati e della loro successiva elaborazione è L’ISTITUTO CENTRALE DI STATISTICA (sigla ISTAT)
La statistica è lo studio quantitativo di SCHEMA RIASSUNTIVO La statistica è lo studio quantitativo di un fenomeno collettivo: si studia individuando il collettivo statistico o popolazione statistica che è l’insieme delle le caratteristiche, dette caratteri, delle unità statistiche che ci sembrano rilevanti per la descrizione del fenomeno stesso unità statistiche: i singoli casi rispetto ai quali il fenomeno si manifesta Il modo in cui ogni carattere si manifesta nelle unità statistiche viene descritto attraverso delle modalità Un carattere può essere di tipo Qualitativo se le modalità si esprimono tramite aggettivi e sostantivi e possono essere Quantitativo se le modalità si esprimono tramite numeri e possono essere Nominale o sconnesse: se non possono essere ordinate Ordinale o ordinate se si può stabilire un ordine Discrete o discontinue se vengono descritte da numeri interi continue se vengono descritte da numeri reali
3) SPOGLIO E TRASCRIZIONE DEI DATI Per lo spoglio dei dati occorre utilizzare un’operazione semplice, ma fondamentale che è il CONTEGGIO. Infatti dopo la rilevazione dei dati occorre contare quante volte una modalità di un carattere si è ripetuta cioè con che frequenza si è ripetuta. Dopo aver contato i dati, vengono scritti in tabelle (rappresentazione numerica) che possono essere semplici o composte. Una TABELLA SEMPLICE è formata da DUE COLONNE e consente la classificazione dei dati rispetto ad un SOLO CARATTERE. Una TABELLA COMPOSTA è formata da PIÙ COLONNE, e consente la classificazione dei dati rispetto a PIÙ CARATTERI
dati tabella semplice 1) TABELLA SEMPLICE Orario (h) Temperatura (°C) ESEMPIO: Riportiamo in una TABELLA SEMPLICE i DATI riguardanti le TEMPERATURE registrate durante una giornata autunnale ad intervalli di sei ore: 1) h=0; T=2°C; 2) h=6;T=2°C; 3) h=12;T=11°C; 4) h=18;T=8°C; 5) h=24;T=4°C Orario (h) Temperatura (°C) 2 6 12 11 18 8 24 4 dati tabella semplice
dati tabella composta 2) TABELLA COMPOSTA Componente nucleo altezza ESEMPIO: Riportiamo in una TABELLA COMPOSTA i DATI riguardanti le ALTEZZE (h) ed i PESI (P) di una famiglia di quattro persone: 1) Padre; h = 175 cm; p = 80 kg; 2) Madre: h = 170 cm; p = 64 kg; 3) Figlio h = 180 cm; p = 74 kg; 4) Figlia h = 173 cm; p = 60 kg dati Componente nucleo altezza h = cm peso P = kg Padre 175 80 Madre 170 64 Figlio 180 74 Figlia 173 60 tabella composta
4) ELABORAZIONE DEI DATI In questa fase i dati vengono sottoposti ad una elaborazione matematica il cui scopo è quello di esprimere i risultati dell’indagine in modo sintetico, mediante: 1. rappresentazione numerica dei dati e relative frequenze 2. rappresentazione grafica dei dati 3. Indici di centralità
RAPPRESENTAZIONE DEI DATI STATISTICI La rappresentazione dei dati può essere NUMERICA e GRAFICA Rappresentazione numerica dei dati: 1) TABELLE SEMPLICI 2) TABELLE COMPOSTE 1) DIAGRAMMI CARTESIANI 2) ISTOGRAMMI 3) IDEOGRAMMI 4) DIAGRAMMI A TORTA Rappresentazione grafica dei dati:
FREQUENZE ASSOLUTE 10 6 1 5 22 carattere Frequenze assolute modalità La FREQUENZA ASSOLUTA indica quante volte la MODALITÀ di un CARATTERE si ripete. Colore capelli (carattere) N° persone (frequenza assoluta) Neri 10 Castani 6 Rossi 1 Biondi 5 totale 22 carattere Frequenze assolute modalità
Frequenza relativa = frequenza assoluta / totale casi FREQUENZE RELATIVE Le FREQUENZE ASSOLUTE, di due distribuzioni di dati, anche della stessa specie, non sono confrontabili in quanto si riferiscono, in generale, ad un diverso numero di casi complessivi. Questo inconveniente viene superato introducendo il concetto di FREQUENZA RELATIVA La frequenza relativa di una certa modalità è data dal rapporto tra la frequenza assoluta di tale modalità ed il numero totale dei casi. Spesso si esprime la frequenza relativa in forma percentuale. Frequenza relativa = frequenza assoluta / totale casi
Esempio: Frequenze relative Neri 10 0,46 Castani 6 0,28 Rossi 1 0,02 Colore capelli (carattere) N° persone (frequenza assoluta) Frequenza Relativa (f.a./totale) Neri 10 0,46 Castani 6 0,28 Rossi 1 0,02 Biondi 5 24 totale 22 Frequenze relative
Frequenza relativa percentuale = frequenza relativa per 100 FREQUENZE RELATIVE PERCENTUALI La frequenza relativa percentuale di una certa modalità è data dalla frequenza relativa moltiplicata per 100. Frequenza relativa percentuale = frequenza relativa per 100
Esempio: totale 22 100 Frequenze percentuali Neri 10 0,4545 45,45 Colore capelli (carattere) N° persone (frequenza assoluta) Frequenza Relativa (f.a./totale) % Neri 10 0,4545 45,45 Castani 6 0,2727 27,27 Rossi 1 0,0455 4,55 Biondi 5 0,2272 22,72 totale 22 100 Frequenze percentuali
FREQUENZA CUMULATA E RETROCUMULATA Consideriamo un carattere le cui modalità siano ordinate. Si chiama frequenza cumulata (assoluta o relativa) della modalità x la somma delle frequenze (assolute o relative) della modalità x e di tutte quelle modalità che precedono la x. Si chiama frequenza retrocumulata (assoluta o relativa) della modalità x la somma delle frequenze (assolute o relative) della modalità x e di tutte quelle modalità che seguono la x.
Frequenza. Cum assoluta Esempio: Colore capelli (carattere) N° persone (frequenza assoluta) Frequenza. Cum assoluta Frequenza Retrocumulata assoluta Rossi 1 1+0=1 1+5+6+10+22=44 Biondi 5 5+1=6 5+6+10+22=43 Castani 6 6+5+1=12 6+10+22=38 Neri 10 10+6+5+1=22 10+22=32 totale 22 22+10+6+5+1=44 22+0=22
SCHEMA RIASSUNTIVO Lo spoglio dei questionari o delle schede di rilevazione porta alla costruzione della tabella o matrice dei dati grezzi: tabella in cui a ogni unità statistica compete una riga nella quale sono specificate le modalità che la descrivono in riferimento ai caratteri studiati; da essa si ottengono le assoluta: numero delle modalità da esso descritte tabelle di frequenza relativa: rapporto tra la frequenza assoluta e la numerosità del collettivo considerato per ogni modalità contengono la frequenza corrispondente può anche essere espressa in forma percentuale. Essa serve a confrontare due collettivi distinti e a valutare il “ peso” di una modalità rispetto alla totalità del collettivo la frequenza di una modalità può essere cumulata: somma delle frequenze di tutte le modalità minori o uguali alla modalità considerata retrocumulata: somma delle frequenze di tutte le modalità maggiori o uguali alla modalità considerata
DISTRIBUZIONE DI FREQUENZA In una tabella di frequenza a ogni modalità di un carattere è associato un numero che rappresenta la frequenza di quella modalità. Non è difficile riconoscere che ci troviamo di fronte a una funzione. Si chiama distribuzione di frequenza la funzione che associa a ogni modalità ad un dato carattere la sua frequenza. Il dominio di una distribuzione di frequenza è l’insieme delle modalità di un carattere.
CLASSI DI FREQUENZE Se in una DISTRIBUZIONE i dati sono molto NUMEROSI, allora i valori dei caratteri possono essere raggruppati in classi; nel caso di caratteri quantitativi le classi sono sovente intervalli di valori, i cui valori estremi siano compresi in uno e un solo intervallo (estremo inferiore escluso, superiore incluso). La suddivisione in classi consente di determinare le frequenze assolute e relative delle classi in luogo delle singole modalità. Si definisce ampiezza di una classe la differenza tra l’estremo superiore e l’estremo inferiore della stessa. Le classi possono essere: di pari ampiezza (equi-ampie) di pari frequenza (equi-frequenti).
REGOLE PER LA COSTRUZIONE DELLE CLASSI Le regole fondamentali per la suddivisione in classi dei valori del carattere rilevati sono le seguenti: Le classi devono essere esaustive: ogni valore deve appartenere ad almeno una classe; le classi devono essere a due a due disgiunte, quindi ogni valore deve appartenere ad una sola classe (in modo da evitare che esso sia considerato due volte e quindi siano contate due volte le unità statistiche che hanno come determinazione del carattere quel valore ); le classi devono essere ordinate in modo che i valori della prima precedono tutti quelli della seconda classe e quelli della seconda precedono quelli della terza classe e cosi via.
I raggruppamenti delle classi possono essere operati in modo diverso, ma devono essere ordinate in ordine crescente. Di ogni classe si calcola: l’ampiezza, la densità di frequenza (se le ampiezze delle classi sono diverse) e il valore centrale. Ampiezza = differenza tra l’estremo superiore e l’estremo inferiore. Densità di frequenza = rapporto tra la frequenza relativa e l’ampiezza. Valore centrale = media aritmetica tra l’estremo inferiore e l’estremo superiore.
TRASCRIZIONE DEI DATI PER CLASSI La rappresentazione di una DISTRIBUZIONE DI DATI PER CLASSI, si presenta VANTAGGIOSA quando i dati sono molto NUMEROSI. Rappresentazione numerica Rappresentazione per classi di peso PESO (Kg) (termini) N° STUDENTI (frequenze) 52 1 54 55 2 61 63 68 69 3 71 73 75 TOTALE 14 CLASSI DI PESO (termini) N° STUDENTI (frequenze) 50 – 60 Kg 4 60 – 70 Kg 7 70 – 80 Kg 3 totale 14 E S E M P I O L’ informazione, diviene meno precisa nel caso di una distribuzione per classi, tuttavia la visione della distribuzione diventa più semplice e rapida
RAPPRESENTAZIONI GRAFICHE dei dati statistici Le INFORMAZIONI che derivano da una raccolta dati sono più evidenti se sono visualizzate attraverso GRAFICI I GRAFICI possono essere di diverso tipo: DIAGRAMMI CARTESIANI ORTOGRAMMI - ISTOGRAMMI 3) DIAGRAMMI A TORTA IDEOGRAMMI Rappresentazioni grafiche dei dati:
Obiettivo Le rappresentazioni grafiche hanno l’obiettivo di illustrare, mediante: figure, linee o segmenti, superfici o aree, solidi, simboli convenzionali ecc. una distribuzione di frequenze o delle modalità di uno o più caratteri. Distribuzione di frequenze: è l'insieme delle coppie ordinate il cui primo elemento corrisponde alla modalità o al valore assunto dal carattere statistico e il secondo elemento alla frequenza con cui compare quella particolare modalità. La frequenza può essere: assoluta (numero di volte che è presente una particolare modalità) relativa (rapporto tra frequenza assoluta e numero delle unità statistiche) percentuale (frequenza relativa moltiplicata per 100). Distribuzione di intensità: si ottiene come risultato congiunto dell'operazione di classificazione del collettivo rispetto ad un carattere e di misurazione di un carattere quantitativo all'interno di ciascuna classe. Il carattere rispetto al quale si effettua la classificazione può coincidere o no con quello che viene misurato all'interno di ogni classe.
La rilevanza dei dati Pertanto le componenti di supporto: Per massimizzare l’efficacia di un grafico l’attenzione deve essere concentrata sui dati. Pertanto le componenti di supporto: Devono essere presenti solo se necessarie: titoli degli assi, legende e etichette in alcuni casi possono essere essenziali per la comprensione del grafico, ma in altri possono essere del tutto inutili. Devono essere lievi: è preferibile usare linee più leggere per gli assi e per la griglia e linee più marcate per i dati. Gli effetti decorativi non devono allontanare l’attenzione del lettore dai dati.
La rilevanza dei dati Il grafico a destra è più facile da leggere. La presenza di troppe informazioni riduce la portata dell’informazione principale che il grafico vuole trasmettere. Il grafico a destra è più facile da leggere. Il ricorso a poche componenti di supporto permette di concentrare l’attenzione sui dati. Nel grafico tutte le componenti hanno il massimo impatto. Il risultato è un grafico confuso, difficile da leggere anche se sono presenti solo 3 valori.
Rappresentazioni grafiche di caratteri quantitativi Diagrammi cartesiani Diagrammi cartesiani a segmenti Istogrammi 3. Poligono di frequenza
dati Grafico DIAGRAMMA CARTESIANO T (°C) Y (12;11) 12 10 8 6 4 2 Un DIAGRAMMA CARTESIANO è formato da due RETTE (assi) perpendicolari tra loro, l’asse ORIZZONTALE si chiama ASCISSA (asse X), l’asse VERTICALE si chiama ORDINATA (asse Y). Su di essi vengono riportati i dati statistici, viene usato per rappresentare le SERIE STORICHE. Esempio: Riportiamo su di un DIAGRAMMA CARTESIANO le TEMPERATURE registrare ogni sei ore, durante una giornata autunnale : 1) h=0; T=2°c2) h=6;T=2°C 3) h=12;T=11°C 4) h=18;T=6°C 5) h=24;T=4°C Basta riportare sull’ asse X il Tempo e sull’ asse Y le Temperature T (°C) Y (12;11) dati 12 10 8 6 4 2 (18;6) Grafico (0;2) (6;2) (24;4) X 0 6 12 18 24 h (ore) DIAGRAMMA CARTESIANO
ISTOGRAMMA L’ISTOGRAMMA è un grafico a colonne: le colonne (rettangoli) hanno basi uguali e possono essere disegnate una vicino all’altra. L’altezza è proporzionale alla frequenza di ciascun dato. Vien usato nei caratteri quantitativi CONTINUI. Esempio: Riportiamo in un ISTOGRAMMA le marche di cellulari più in uso fra i giovani : NOKIA (300), SIEMENS (240), SAMSUG (120), PANASONIC (80), MOTOROLA (50) 320_ 280_ 240_ 200_ 160_ 120_ 180_ 140_ 300 240 ISTOGRAMMA 120 80 50 Noki Siem Sams Pana Moto
Gli istogrammi si impiegano per rappresentare graficamente distribuzioni di frequenza di caratteri quantitativi le cui modalità sono costituite da classi di valori. A tal fine occorre distinguere due casi, ovvero: Le classi di valori hanno uguale ampiezza. In questo caso avremo tanti rettangoli contigui, ciascuno avente base uguale all’ampiezza della classe e altezza uguale o proporzionale alla frequenza (assoluta o relativa) assunta nell’insieme delle unità della classe.
2. Le classi di valori hanno diversa ampiezza 2. Le classi di valori hanno diversa ampiezza. In quest’altro caso avremo una serie di rettangoli aventi basi diverse uguali all’ampiezza delle classi e altezze da calcolarsi, in modo che le frequenze siano proporzionali alle aree dei rispettivi rettangoli. In ordinata, pertanto, avremo le cosiddette densità di frequenza date dal rapporto tra la frequenza (assoluta o relativa) di ciascuna classe e la relativa ampiezza.
Esempio: La classe (0 ; 2) indica un intervallo chiuso con l’estremo inferiore uguale a zero e l’estremo superiore uguale a 2. Tutte le altre classi indicano degli intervalli aperti all’estremo inferiore e chiusi all’estremo superiore.
Poligono Delle frequenze (caratteri quantitativi continui) Il poligono di frequenza è una spezzata che unisce i punti aventi per ascissa i punti centrali delle classi e per ordinata la relativa frequenza. In un istogramma, il poligono delle frequenze unisce i punti medi dei lati superiori dei rettangoli; la spezzata deve essere chiusa e deve toccare l’asse delle ascisse all’esterno delle classi estreme, in modo che l’area all’interno del poligono di frequenza equivalga a quella dell’istogramma. Ogni vertice del poligono delle frequenze corrisponde al valore centrale di una classe. Il termine “poligono” è usato impropriamente perché indica una spezzata aperta (e non chiusa). Se le classi hanno la stessa ampiezza, (di solito si considerano come vertici della spezzata anche i punti corrispondenti ai valori centrali delle classi immediatamente precedenti e immediatamente successive a quelle per le quali la frequenza è diversa da zero. Queste classi hanno frequenza zero. Si può verificare che in tal modo la somma delle aree dei rettangoli dell’istogramma è uguale all’area delimitata dall’asse orizzontale e dal poligono delle frequenze. La somma delle aree dei rettangoli di un istogramma è uguale all’area sottostante il poligono delle frequenze.
GRAFICO del Poligono dI FrequenzA
Diagrammi cartesiani a segmenti Sono impiegati per rappresentare graficamente caratteri quantitativi DISCRETI, non divisi in classi, e possono configurarsi a segmenti verticali. Esempio. Numero dei componenti per famiglia, numero delle stanze delle abitazioni, numero di unità locali delle aziende e così via. Essi si costruiscono come gli usuali diagrammi cartesiani aventi due assi perpendicolari: l’asse delle ascisse (x) e l’asse delle ordinate (y), aventi origine comune in zero. Ogni coppia ordinata di valori (xi,yi) determinerà un punto nel piano e l’insieme di tutte le coppie (xi = modalità quantitativa i-esima, yi = frequenza della modalità i-esima) determinerà l’insieme dei punti nel piano che costituiscono la rappresentazione grafica della distribuzione considerata. Per rendere maggiormente visibili tali punti, si tracciano dei segmenti verticali congiungenti l’ascissa (xi) con il punto del piano corrispondente all’ordinata (yi).
E’ da notare che in questo caso è scorretto costruire il poligono o spezzata di frequenza congiungendo tra loro i punti poiché il carattere considerato è discreto e quindi, per sua natura, non possiede i valori intermedi a quelli indicati dalle modalità quantitative. Una spezzata di frequenza che unisse tra loro le modalità, infatti, attribuirebbe anche valori intermedi alle modalità stesse.
Rappresentazioni grafiche di caratteri qualitativi Grafici a barre: ortogrammi o a nastri Diagrammi circolari Ideogrammi Cartogrammi, mappe tematiche
Grafici a barre I grafici a barre sono impiegati per rappresentare graficamente caratteri con modalità qualitative, serie sconnesse o rettilinee e possono essere di due tipi: A colonne se sono costituiti da una successione di colonne, segmenti verticali o rettangoli (a base uguale) equidistanti, in numero pari alle modalità del carattere, e hanno altezza uguale o proporzionale alla frequenza (assoluta o relativa). Sull’asse delle ascisse (orizzontale) si riportano le modalità, sull’asse delle ordinate (verticale) si riportano le frequenze. A nastri, se sono costituiti da tanti nastri (segmenti orizzontali, rettangoli) sovrapposti ed equidistanti, in numero pari alle modalità del carattere, e hanno lunghezza uguale o proporzionale alla frequenza (assoluta o relativa). Sull’asse delle ascisse (orizzontale) si riportano le frequenze, sull’asse delle ordinate (verticale) si riportano le modalità. Serie sconnesse: serie in cui non è possibile riscontrare alcun ordine di successione tra le modalità. (professione, nazionalità, religione e partito politico degli intervistati ecc) Serie rettilinee: serie in cui è possibile riscontrare un ordine logico naturale di successione dei termini. Esiste cioè un termine che rappresenta una modalità iniziale del fenomeno, ed un altro che rappresenta una modalità finale di esso.
Ortogramma a colonne Ortogramma a nastri Grafici a barre Ortogramma a colonne Ortogramma a nastri Se la rappresentazione grafica riguarda una serie sconnessa, l’ordine in cui saranno poste le modalità è arbitrario; se si tratta invece di una serie rettilinea (es. titolo di studio), le modalità saranno poste nell’ordine naturale che esse presentano nella serie.
Esempio di ortogramma: popolazione per condizione, settore di attività economica degli occupati e sesso in Italia nel 1981. Maschi(in migliaia) Femmine(in migliaia) Agricoltura Industria Altre attività In cerca di Occupazione 1.7865.901 6.520 808 9731.826 3.745 1.104
Gli ortogrammi si utilizzano anche per rappresentare contemporaneamente dati di segno opposto come entrate e uscite, importazioni ed esportazioni. Un esempio di ortogramma per la rappresentazione contemporanea di dati positivi e negativi è quello riportato sotto.
Carattere qualitativo nominale a barre verticali: ORTOGRAMMA N.B. E’ possibile costruire il diagramma a barre riportando in ordinata le frequenze assolute OPPURE le frequenze relative, la forma della rappresentazione risulta invariata.
ESEMPIO principali cause di morte nell'uomo nei Paesi industrializzati (fonte: WHO)
Nel grafico precedente, la scala delle ascisse indica i tassi di mortalità per 100.000 persone e per anno (cioè il numero di morti ogni 100.000 persone in 1 anno per ogni causa considerata). In particolare, le barre verdi forniscono i valori osservati nel 1900, quelle gialle i valori del 1984. Ora, confrontando le differenze fra le barre verdi e le gialle per tutte le cause riportate nel grafico, saltano agli occhi gli enormi progressi ottenuti per le malattie infettive tubercolosi, influenza, polmonite ecc.) alcune delle quali risultano oggi pressoché scomparse nei Paesi industrializzati a cui il grafico si riferisce. La facilità con cui abbiamo acquisito informazioni dal grafico, è una conseguenza della loro visualizzazione in forma di grafico a barre: questa rappresentazione consente di cogliere le caratteristiche salienti della rilevazione statistica e di effettuare raffronti con notevole immediatezza rispetto ai soli dati numerici. Per contro, a questa maggior immediatezza di sintesi può far riscontro una diminuzione del senso critico nel valutare i dati.
DIAGRAMMI CIRCOLARI O AEROGRAMMA L’AREOGRAMMA è un tipo di rappresentazione grafica alla quale si ricorre quando si vogliono rappresentare le parti che compongono un fenomeno statistico, usato nei caratteri qualitativi SCONNESSI. In tal caso si traccia una CIRCONFERENZA e si procede alla sua divisione in parti proporzionali alle intensità delle componenti del fenomeno statistico. Esempio Un collezionista si ritrova con 5.750 francobolli di cui: 1.250 sono della Città del Vaticano, 1.100 della Repubblica di S Marino e 3.400 Italiani. Rappresentare il fenomeno statistico mediante un diagramma a torta. ampiezza settori circolari percentuali 22% 59% 19% AEROGRAMMA o diagramma a torta
Sono particolarmente adatti alle serie sconnesse o rettilinee. I diagrammi circolari (o aereogrammi) per la loro forma circolare, sono comunemente noti come ‘‘diagrammi a torta’’. Sono particolarmente adatti alle serie sconnesse o rettilinee. Sono efficaci per mettere in evidenza l’importanza relativa delle singole modalità rispetto al totale. Serie sconnesse: serie in cui non è possibile riscontrare alcun ordine di successione tra le modalità. (professione, nazionalità, religione e partito politico degli intervistati ecc) Serie rettilinee: serie in cui è possibile riscontrare un ordine logico naturale di successione dei termini. Esiste cioè un termine che rappresenta una modalità iniziale del fenomeno, ed un altro che rappresenta una modalità finale di esso.
IDEOAGRAMMA L’IDEOGRAMMA è un tipo di rappresentazione grafica nel quale il fenomeno statistico viene rappresentato mediante l’impiego di FIGURE che richiamano idealmente il contenuto del fenomeno e dove la sua frequenza è proporzionale alle DIMENSIONI oppure al NUMERO delle figure impiegate. Quando il fenomeno da rappresentare non si può rappresentare con una figura intera allora si ricorre ad una FRAZIONE di essa. Esempio Rappresentare mediante un ideogramma le popolazioni di due cittadine formate da 6.500 e 4.000 abitanti. Unità di riferimento = 1.000 abitanti 6.550 abitanti 4.000 abitanti
Cartogrammi I cartogrammi sono grafici utili per rappresentare serie territoriali o geografiche. Per costruire un cartogramma occorre disporre di una carta geografica o topografica in cui siano chiaramente delimitate le diverse zone, regioni, circoscrizioni (geografiche, politiche, amministrative) rispetto alle quali viene analizzata l’intensità o la frequenza di uno o più caratteri (es. nati, morti, reddito pro capite, secondo le Regioni, Province, Comuni). Serie territoriali: serie relative a caratteri geografici, le cui modalità sono luoghi, nazioni, regioni, province, etc.
cartodiagrammi I cartodiagrammi non sono altro che dei cartogrammi in cui, anziché delle serie territoriali semplici, vengono rappresentate delle serie territoriali di due o più caratteri. Esempio: I nati vivi e i morti per 1.000 abitanti nelle 20 Regioni italiane nel 1986.
SCHEMA RIASSUNTIVO Diagramma a torta Diagramma a colonne: istogramma Diagramma a nastri o a barre Diagramma a segmento Caratteri qualitativi sconnessi Diagramma a colonne Diagramma a nastri Caratteri qualitativi ordinati Caratteri quantitativi discreti Diagramma ad aste o segmenti Diagramma a colonne:istogrammi Caratteri quantitativi continui Serie storiche Diagramma cartesiano Diagramma a colonne: ortogrammi Serie geografiche Cartogramma
La scelta della rappresentazione grafica Questi 2 grafici rappresentano la stessa distribuzione. Qual è più chiaro? Entrambi i grafici rappresentano la distribuzione di frequenza di un carattere quantitativo di tipo discreto e pertanto sono formalmente corretti. Tuttavia uno dei due è più efficace. Quale settore del diagramma circolare è maggiore?
La scelta della rappresentazione grafica Per la maggior parte delle persone è più facile confrontare segmenti piuttosto che angoli. Nel diagramma circolare i settori numero 1 e 4 sembrano identici, mentre nel diagramma a barre è evidente la differenza. E’ opportuno rappresentare la stessa distribuzione con più grafici per individuare quello che meglio rappresenta il messaggio che si vuole veicolare.
Principali indici statistici I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. di calcolo MEDIE (semplici e ponderate) (tengono conto di TUTTI i di sintesi valori della distribuzione) di posizione MEDIANA (si calcolano tenendo MODA conto solo di ALCUNI valori) INDICI CAMPO DI VARIAZIONE O RANGE di dispersione VARIANZA SCARTO QUADRATICO MEDIO COEFFICIENTE DI VARIAZIONE
MEDIA ARITMETICA SEMPLICE Consideriamo una distribuzione di DATI DIVERSI UNO DALL’ALTRO: La MEDIA ARITMETICA SEMPLICE è uguale alla somma dei dati divisa per n, cioè: Le medie sono adatte a rappresentare distribuzioni di caratteri quantitativi
MEDIA ARITMETICA SEMPLICE Esempio di calcolo Un alunno nei tre compiti di matematica ha riportato i voti presenti in tabella. Calcolare la MEDIA ARITMETICA dei voti. COMPITO VOTO N° 1 7 N° 2 8 N° 3 6 TOTALE 21 Dove: 21 = somma dei voti 3 = numero dei voti 7 = MEDIA ARITMETICA dei voti
MEDIA ARITMETICA PONDERATA Se i dati si presentano con una certa FREQUENZA o PESO allora il calcolo della media deve essere effettuato sommando ogni termine tante volte quante indica la sua frequenza. Supponiamo che: Il termine a1 si presenta con frequenza p1 Il termine a2 si presenta con frequenza p2 ………………………………………………………………………… Il termine an si presenta con frequenza pn Il calcolo della MEDIA PONDERATA si effettua con la relazione:
MEDIA ARITMETICA PONDERATA Esempio di calcolo 20 Studenti di una classe, hanno ottenuti in matematica i voti riportati in tabella. Calcolare la MEDIA PONDERATA dei voti. Voto in Matematica Numero studenti 4 2 5 3 6 8 7 totale 20 Dove: 122 = somma dei voti 20 = numero di studenti 6,1 = MEDIA PONDERATA dei voti
MEDIA PONDERATA NEL CASO DI UNA DISTIBUZIONE DI DATI PER CLASSI In questo caso ad ogni classe, viene sostituito il TERMINE CENTRALE, calcolato mediante la semisomma dei termini estremi della classe (X1-X2). I termini centrali cosi ottenuti costituiscono i termini a1; a2; a3; ecc. della distribuzione. Termine centrale frequenze a1 p1 a2 p2 a3 p3 ecc. SEMISOMME classe frequenza X1-X2 p1 X2-X3 p2 X3-X4 p3 ecc. Infine la media ponderata si calcola con la relazione
DI UNA DISTIBUZIONE DI DATI PER CLASSI MEDIA PONDERATA DI UNA DISTIBUZIONE DI DATI PER CLASSI Esempio di calcolo Si fa riferimento ai dati della tabella 1 termini centrali n° persone (Frequenze) a1 = 10 P1 = 35 a2 = 30 P2 = 4 a3 = 50 P3 = 1 totale 40 CALCOLO valori centrali Classi di età (anni) n° persone (Frequenze) 0 - 20 35 20 - 40 4 40 - 60 1 totale 40 Calcolo della media ponderata Età media = 13 anni
MODA Si definisce MODA di una distribuzione di dati il termine corrispondente alla MASSIMA FREQUENZA assoluta o relativa. ESEMPIO: Determinare la MODA della seguente distribuzione di voti: VOTO FREQUENZA 5 4 6 8 7 2 9 1 Il termine che corrisponde alla massima frequenza (8) è il 6, pertanto: MODA = 6 La moda è particolarmente adatta a rappresentare distribuzioni di caratteri qualitativi
Le distribuzioni di frequenza possono essere: zeromodali: nessuna modalità ha una frequenza più elevata degli altricioè fanno tutti frequenza uguale ad 1. Esempio A = {1, 2, 3, 4, 5, 6} unimodali : c’è una sola modalità con una frequenza più elevata degli altri. Esempio: A = {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 7, 8} bimodali : ci sono due modalità con una frequenza più elevata degli altri. Esempio: A = {1, 2, 2, 3, 3, 3, 3, 5, 6, 6, 6, 6, 7, 7, 8, 8 } trimodali, ecc : ci sono tre,…, modalità con una frequenza più elevata degli altri. Esempio: A = {1, 2, 3, 3, 3, 3, 5, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8}. plurimodali: tutte le modalità della distribuzione hanno la stessa frequenza diversa da uno.
CLASSE MODALE Nel caso di caratteri continui e per distribuzioni fornite per classi equi-ampie il calcolo della moda avviene mediante l’individuazione della classe modale, cioè quella caratterizzata dalla massima frequenza. Se le classi non sono equi - ampie è bene dividere la frequenza assoluta di ogni classe per l’ampiezza dell’intervallo ottenendo la cosiddetta “densità di frequenza”. La classe modale è quella con la densità di frequenza più alta. Per la determinazione della classe modale è opportuno ricorrere all'istogramma, individuando l'intervallo di altezza massima, ovvero il punto di massimo della curva. La classe con la maggiore densità media (che corrisponde all'altezza dell'istogramma) è quella modale.
MEDIANA Si definisce MEDIANA il termine che occupa il POSTO CENTRALE di una distribuzione di dati ordinati in modo crescenti. La mediana è adatta a rappresentare distribuzioni di caratteri quantitativi. ESEMPIO: Determinare la MEDIANA della seguente distribuzione di voti: Si ordinano i dati in maniera crescente VOTO FREQUENZA 5 4 6 8 7 2 9 1 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 8 8 9 Il TERMINE CENTRALE è il 6, infatti è quello che lascia alla sua destra e alla sua sinistra un eguale numero di termini, pertanto si ha: MEDIANA = 6
Mediana: Come si calcola? Per caratteri quantitativi discreti: Si dispongono i valori in una serie ordinata in modo crescente o decrescente e si conta il numero totale n di dati: se n è dispari, la mediana corrisponde al valore numerico del dato che occupa la posizione (n+1)/2; se n è pari, la mediana è calcolata come la media aritmetica dei valori che occupano le posizioni (n/2) e (n/2)+1 . Per caratteri quantitativi continui: Il raggruppamento in classi delle modalità consente al più di determinare la classe mediana nella quale ricade l’unità statistica che bipartisce la distribuzione ordinata delle modalità.
DISTRIBUZIONE SIMMETRICA E ASIMMETRICA Quando i dati sono distribuiti uniformemente su entrambi i lati del picco la distribuzione è simmetrica. Quando i dati non sono distribuiti uniformemente su entrambi i lati del picco la distribuzione è asimmetrica. In una distribuzione unimodale valgono le seguenti relazioni: media=mediana=moda ( simmetria) moda<mediana<media (asimmetria +) media < mediana < moda (asimmetria -)
GRAFICO DISTRIBUZIONE SIMMETRICA
GRAFICO DISTRIBUZIONE ASIMMETRICA
RICAPITOLANDO I principali indicatori della statistica descrittiva sono: media: è la somma di tutte le N osservazioni divisa per N. Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11], la media è 43/8 2. moda: è il numero di osservazioni che compare con maggior frequenza. Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11], la moda è 4. In alcune distribuzioni, la moda può mancare, oppure essere presente per più di un valore; in questo caso, si hanno distribuzioni bimodali (due mode), trimodali (tre mode), plurimodali. 3. mediana: è il numero che compare al centro dei valori osservati, se questi sono dispari; se sono pari, è la media fra i due valori centrali. Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11], la mediana è (4 + 5)/2
Esempio Calcolare la media e la mediana di una serie di 6 dati (10,1; 10,8; 13,1; 13,9; 14,2; 14,5; ) e rappresentarle graficamente. la media è 12,85 la mediana, essendo n pari, è data dalla media aritmetica dei valori che occupano le posizioni 3 e 4 quindi sarà:
esempio: Disegnato l'istogramma delle frequenze (v. fig. a destra) calcolare le stime campionarie per un paziente del quale è stato registrato il seguente numero di battiti cardiaci al minuto in un periodo di 10 giorni: -[73, 72, 73, 74, 70, 76, 72, 74, 74, 73] Le stime campionarie sono: la media è data dalle osservazioni/N = (73 + 72 + 73 + 74 + 70 + 76 + 72 + 74 + 74 + 73)/10 = 73,1 la mediana, trattandosi di un insieme costituito da osservazioni in numero pari, è data dalla media dei valori centrali: 70, 72, 72, 73, 73, 73, 74, 74, 74, 76 (73 + 73)/2 = 73 la moda è bimodale, ed è costituita dai due valori più frequenti: 73 e 74
Prova tu ……… Esercizio Lanciando due dadi, si sono registrati i seguenti punteggi totali: 10 – 9 – 8 – 11 – 5 – 4 – 10 – 4 – 7 – 7 – 9 – 10 – 4 – 6 – 8 – 9 – 6 – 5 – 6 – 8 – 7 – 10 – 9 – 5 – 6 – 3 – 8 – 7 – 5 – 7 – 11 1. organizza i dati in una tabella di frequenza qual è il dato con la maggior frequenza sono usciti più frequentemente risultati dispari o pari? sono usciti più frequentemente risultati maggiori o minori di 7? qual è la frequenza percentuale del punteggio 6? 6. Determina la MODA e la MEDIANA
INDICATORI DI DISPERSIONE CAMPO DI VARIAZIONE (RANGE) La caratteristica dei valori misurati per un certa osservazione a distribuirsi attorno ad un valore medio è chiamato dispersione. Per misurare la dispersione o variabilità dei valori, si utilizzano indicatori statistici detti di dispersione. Il campo di variazione o range di una raccolta di dati è la differenza tra il massimo ed il minimo valore osservati: R = xmax − xmin Il campo di variazione è poco usato perchè: • trascura la maggior parte dell’informazione disponibile • risente eccessivamente dei valori estremi.
VARIANZA (σ2) La VARIANZA serve per valutare la VARIABILITÀ di un fenomeno statistico. La VARIANZA è la media aritmetica degli scarti al quadrato, si indica con il simbolo σ2 ( si legge sigma al quadrato) e si calcola con la relazione: La VARIANZA è sempre POSITIVA: infatti i termini (a-M)2 sono tutti positivi La VARIANZA è uguale a ZERO se la VARIABILITÀ è nulla La VARIANZA è tanto più ALTA quanto più alta è la VARIABILITÀ
DI UN FENOMENO STATISTICO VARIABILITA’ DI UN FENOMENO STATISTICO Per comprendere cos’è la VARIABILITA’ di un fenomeno statistico consideriamo la tabella che segue, nella quale vengono indicati quanti televisori sono stati venduti da un commerciante nei primi tre mesi del 2003 e 2004 Dalla tabella si nota che nel 2003 la vendita mensile dei televisori risulta COSTANTE (30-30-30), mentre nel 2004 essa subisce una VARIAZIONE (40-20-30) mese 2003 2004 Gennaio 30 40 febbraio 20 marzo totale 90 Pertanto: 2) SI HA VARIABILITÀ nelle vendite del 2004 NON SI HA VARIABILITÀ nelle Vendite del 2003 Si ha VARIABILITA’ quando i dati relativi ad un fenomeno statistico non sono tutti uguali.
CALCOLO DELLA VARIANZA I prezzi di CILIEGIE ed ANGURIE, in una settimana, variano secondo i dati riportati in tabella. Stabilire in base al calcolo della VARIANZA quale dei due prodotti ha subito una maggiore variazione di prezzo. giorno 1 Kg di Ciliegie 1 Kg di Angurie Scarto ciliegie Scarto al quadrato angurie Lunedì € 5,00 € 1,00 - 0,25 0,0625 + 0,25 Martedì € 5,10 - 0,15 0,0225 Mercoledì € 5,20 € 0,80 - 0,05 0,0025 + 0,05 Giovedì € 5,30 € 0,70 Venerdì € 5,40 € 0,50 + 0,15 Sabato € 5,50 MEDIA € 5,25 € 0,75 0,175 0,225 Per le angurie si ha: M = 0,75 e σ2 = 0,225/6 = 0,04 Per le ciliegie si ha: M = 5,25 e σ2 = 0,175/6 = 0,03 Essendo la VARIANZA delle angurie (0,04), maggiore della VARIANZA delle ciliegie (0,03), il prezzo delle angurie ha subito una variazione maggiore rispetto al prezzo delle ciliegie
SCARTO QUADRATICO MEDIO (σ) o deviazione standard A volte per misurare il grado di VARIABILITÀ di una distribuzione di dati, si preferisce ricorrere allo SCARTO QUADRATICO MEDIO cioè alla RADICE QUADRATA della VARIANZA. La deviazione standard, scarto tipo o scarto quadratico medio è un indice di dispersione statistico, vale a dire una stima della variabilità di una popolazione di dati o di una variabile casuale. La deviazione standard è data dalla RADICE QUADRATA della VARIANZA. L’IMPORTANZA dello scarto quadratico medio risiede nel fatto che esso permette di giungere al concetto di NORMALITA’ nel campo statistico.
COEFFICIENTE DI VARIAZIONE Il coefficiente di variazione, definito dal rapporto fra deviazione standard e la media aritmetica dei dati, V = σ/ m (m = media aritmetica dei dati, con m diverso da zero) fornisce una indicazione della variabilità delle osservazioni rilevate. In particolare, se: V = 1, allora σ = m e la media non è un indice corretto; V = 0, allora σ = 0 e la media è un indice perfetto; V > 0.5, la media non è un indice corretto; V ≤ 0.5, la media è un indice corretto.
NORMA e FUORI NORMA Un CARATTERE su cui si indaga si dice compreso NELLA NORMA quando esso non differisce dal CARATTERE MEDIO di più o di meno tre volte lo SCARTO QUADRATICO MEDIO. Un CARATTERE che va fuori tali limiti si dice FUORI NORMA. Esempio: Se una popolazione evidenzia un’ALTEZZA MEDIA H = 175 cm con uno SCARTO QUADRATICO MEDIO σ = 5 cm, possiamo dire che: Un’ALTEZZA rientra NELLA NORMA se compresa tra: H – 3 x σ = 175 – 3 x 5 = 160 cm H + 3 x σ = 175 + 3 x 5 = 190 cm ALTEZZE fuori da tale intervallo (160;190cm) sono FUORI NORMA
ESEMPI esempio 1: studiare la curva di distribuzione i cui valori sono: 95, 96, 97, 98, 99, 101, 102, 103, 104, 105 il campo di variazione è: 105 - 95 = 10 la media è: 100 e non corrisponde ad alcun valore realmente osservato; la mediana è: 100 ed è uguale alla media; ciò indica una distribuzione simmetrica la moda è mancante (zeromodale) la deviazione standard o scarto quadratico è: 3.3 ed indica che la media fornisce una stima adeguata delle misure osservate. Infatti, nell'intervallo (100 - 3.3); (100 + 3.3) cadono 6 valori su 10 il coefficiente di variazione è: 3,3/ 100 = 0.033, un valore molto basso e quindi la media è un indicatore corretto.
esempio 2: Studiare la curva di distribuzione i cui valori sono: 95, 95, 95, 95, 95, 105, 105, 105, 105, 105 il campo di variazione è: 105 - 95 = 10 la media è: 100 e non corrisponde ad alcun valore realmente osservato; la mediana è: 100 ed è uguale alla media; ciò indica una distribuzione simmetrica la moda è: bimodale, con i valori 95 e 105. Questo è l'indicatore più appropriato per la distribuzione in oggetto. la deviazione standard è: 5 ed indica che la media fornisce una stima adeguata delle misure osservate. Infatti, nell'intervallo (100 - 5); (100 + 5) cadono 10 valori su 10 il coefficiente di variazione è: 5/ 100 = 0.05, un valore basso. Inoltre, anche senza osservare il grafico, si può intuire che i valori osservati sono concentrati agli estremi. La media, in questo caso, è un indice corretto.
esempio 3: studiare la curva di distribuzione i cui valori sono: 0, 0, 50, 50, 100, 100, 150,150, 200, 200 il campo di variazione è: 200 - 0 = 200 la media è: 100 corrisponde a due valori realmente osservati; la mediana è: 100 ed è uguale alla media; ciò indica una distribuzione simmetrica la moda è: plurimodale la deviazione standard è: 70,7 ed indica che la media fornisce una stima adeguata delle misure osservate. Nell'intervallo (100 - 70,7); (100 + 70,7) cadono 6 valori su 10 e l'intervallo in cui cadono i dati è coperto al 50% il coefficiente di variazione è: 70.7/ 100 = 0.7 un valore alto, e quindi l'indicatore più adatto è la moda in quanto la distribuzione è multimodale.
esempio 4: studiare la curva di distribuzione i cui valori sono: 20, 40, 50, 60, 70, 80, 90, 90, 100, 200, 200, 200 il campo di variazione è: 200 - 20 = 180 la media è: 100 e corrisponde ad un valore realmente osservato; la mediana è: 85 ed è differente dalla media; ciò indica una distribuzione asimmetrica la moda è 200. Questo è l'indicatore più appropriato per la distribuzione in oggetto. la deviazione standard è: 61.6 e la media fornisce una stima adeguata delle misure osservate. il coefficiente di variazione è: 61.6/ 100 = 0.62 un valore elevato, infatti i valori osservati sono piuttosto distribuiti. La presenza di un valore estremo (200) provoca una distorsione sugli indici di variabilità e toglie significato rappresentativo alla media. Questo è un caso piuttosto frequente in campo medico (per es., i valori degli esami del sangue) ed in altri settori applicativi. In questo caso, il valore della media è troppo spostato a destra rispetto alla maggior parte dei valori della distribuzione di frequenza. L'indicatore migliore è pertanto la mediana, che risente meno dei valori estremi.
FINE PRESENTAZIONE …e adesso… buon lavoro!