La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Elaborazione dei dati Indici di posizione centrale

Presentazioni simili


Presentazione sul tema: "Elaborazione dei dati Indici di posizione centrale"— Transcript della presentazione:

1 Elaborazione dei dati Indici di posizione centrale
Le tabelle dei dati, le tabelle di distribuzione delle frequenze e le relative rappresentazioni grafiche forniscono già un’idea, sia pur approssimata, dell’andamento del fenomeno in esame. E’ possibile valutare in modo più preciso alcune caratteristiche, elaborando i dati raccolti nell’indagine, cioè traendo da essi altre informazioni significative con procedimenti matematici. L’elaborazione dei dati riguarda in generale solo i caratteri di tipo quantitativo, le cui modalità sono espresse da numeri, e consiste in pratica nel calcolo di alcuni particolari indici, detti valori di sintesi, ciascuno dei quali esprime mediante un solo numero una caratteristica del fenomeno in esame. In altre parole: è possibile sintetizzare i dati raccolti in un’indagine statistica attraverso pochi numeri significativi, detti valori medi o indici di posizione, che permettono di cogliere alcuni aspetti importanti del fenomeno in esame. Tre di questi valori di sintesi sono: la media aritmetica, la moda e la mediana. Indici di posizione centrale: Media aritmetica Moda Mediana

2 Elaborazione dei dati Media
Si dice media aritmetica di un insieme di numeri, il rapporto tra la loro somma ed il loro numero (totale) Esempio I voti riportai da un alunno nel corso del 1° quadrimestre sono stati: La loro media aritmetica è: = Nel caso di una distribuzione di dati numerici si può affermare che la media aritmetica è il valore che i dati assumerebbero se fossero tutti uguali fra loro. Riportiamo i dati in una tabella di frequenza: La media aritmetica è: = voto frequenza 6 3 4 1 5 2 7 8 Quando i dati sono raggruppati in una tabella di distribuzione delle frequenze, la media aritmetica si calcola addizionando i prodotti di ciascun dato per la sua frequenza assoluta e dividendo la somma ottenuta per la somma delle frequenze assolute. In questi casi la media aritmetica si dice ponderata. N.B. Il simbolo si legge: x sopra segnato.

3 Elaborazione dei dati Media ponderata In generale:
Dati k numeri x1, x2 , …, xk con frequenze rispettivamente f1, f2, …, fk , si definisce media aritmetica ponderata di tali numeri il numero, indicato con il simbolo espresso dalla formula: Proprietà della media aritmetica: La somma delle differenze tra ciascun degli n numeri x1, x2, …xn e la loro media aritmetica (scarto) è uguale a zero.

4 Elaborazione dei dati Media aritmetica di un carattere suddiviso per classi Un’indagine effettuata su di un campione di individui ha prodotto la seguente distribuzione di frequenze; qual è il peso medio degli individui della popolazione considerata? Peso (in Kg) Frequenza 40 ≤ p < 50 16 50 ≤ p < 60 48 60 ≤ p < 70 45 70 ≤ p < 80 36 80 ≤ p < 90 8 90 ≤ p < 100 3 Totale: 156 Sostituendo ogni classe con il suo valore centrale, otteniamola seguente distribuzione di frequenze: Peso (in Kg) Frequenza 45 16 55 48 65 75 36 85 8 95 3 N.B. Per esempio, il valore centrale della prima classe (40 ≤ p < 50) è: N.B. La scrittura: 40 ≤ p < 50 può essere indicata: [40 , 50) A questo punto il peso medio può essere ricavato con una media aritmetica ponderata. Si ottiene che il peso medio è:

5 Elaborazione dei dati Mediana
Si dice mediana di una distribuzione di dati numerici e ordinati, il valore centrale della distribuzione. Ad esempio, se i dati di un’indagine sono espressi dai numeri: Dopo averli ordinati: Il valore che occupa la posizione centrale è la mediana, nel nostro caso : 13 Se il numero dei dati è pari, non essendoci un valore centrale, la mediana è la media dei due valori centrali: di posto: e Dopo averli ordinati: Nel nostro caso, presi i numeri 13 e 15, la loro media è: (13+15)/2= 14; pertanto 14 è la mediana. In conclusione: Se K è la mediana di una distribuzione dei dati, significa che la metà dei dati è minore o uguali a K e la metà è maggiore o uguale a K.

6 Elaborazione dei dati Mediana di una distribuzione di frequenze
Il parroco di una chiesa ha ricevuto dai suoi parrocchiani duemila offerte natalizie: 500 fedeli hanno dato 20 euro a testa, 600 hanno contribuito con 150 euro ed i restanti 900 hanno donato 50 euro. Qual è l’offerta mediana? Costruiamo la tabella che rappresenta la distribuzione delle frequenze delle offerte e calcoliamo le frequenze cumulate: Offerta Frequenza Frequenza cumulata 20 euro 500 50 euro 900 1400 150 euro 600 2000 Poiché il numero dei fedeli è pari: n = 2000 , come detto in precedenza, le posizioni centrali sono: e ossia le posizioni di posto 1000 e 1001 Dalla colonna delle frequenze cumulate si deduce che le offerte dalla 501 alla 1400 sono di 50 euro, quindi in particolare ammontano a 50 euro le due offerte corrispondenti alle due posizioni centrali di posto 1000 e La mediana è per definizione la media tra queste due offerte, dunque è 50 euro . Il significato della mediana è: almeno il 50% dei parrocchiani ha fatto offerte minori o uguali a 50 euro e almeno il 50% dei parrocchiani ha fatto offerte maggiori o uguali a 50 euro.

7 Elaborazione dei dati Mediana di un carattere suddiviso per classi
Consideriamo la distribuzione di frequenze rappresentata dalla tabella sottostante, che abbiamo già esaminato in precedenza ai fini del calcolo della media. Qual è il peso mediano? Peso (in Kg) Frequenza 40 ≤ p < 50 16 50 ≤ p < 60 48 60 ≤ p < 70 45 70 ≤ p < 80 36 80 ≤ p < 90 8 90 ≤ p < 100 3 Totale: 156 Dobbiamo anzitutto individuare la classe mediana; a tale scopo è utile calcolare le frequenze cumulate: Peso (in Kg) Frequenza Frequenza cumulata 40 ≤ p < 50 16 50 ≤ p < 60 48 64 60 ≤ p < 70 45 109 70 ≤ p < 80 36 145 80 ≤ p < 90 8 153 90 ≤ p < 100 3 156 Totale: Il collettivo è composto complessivamente da 156 individui (pari); la mediana è data perciò dalla media tra il 78-esimo ed il 79-esimo peso osservato. Dalla colonna delle frequenze cumulate si deduce che i pesi osservati dal numero 65 al numero 109 appartengono alla classe: 60 ≤ p < 70 Pertanto anche la mediana appartiene a tale classe, che risulta dunque la classe mediana. Come approssimazione della mediana prendiamo il valore centrale di tale classe: Il peso mediano è quindi 65 Kg.

8 Elaborazione dei dati Moda
Abbiamo visto che la media aritmetica e la mediana sono due indici che si applicano limitatamente a caratteri quantitativi. La moda, invece, si può applicare anche nel caso di caratteri qualitativi. Si dice moda o valore modale di una distribuzione di dati la modalità che ha la frequenza (assoluta, relativa o percentuale) maggiore La tabelle sottostanti riguardano il colore preferito da un gruppo di studenti ed il peso di un gruppo di persone adulte Colore Frequenza assoluta rosso 19 verde 38 giallo 12 nero 4 blu 15 Peso (Kg) Frequenza assoluta 50 120 60 90 70 80 140 20 La moda è il colore verde nella prima tabella, (frequenza 38) e nella seconda è il peso di 80 Kg (frequenza 140) La moda è un carattere centrale che si può determinare nel caso di caratteri qualitativi sia nel caso di caratteri quantitativi

9 Elaborazione dei dati Classe modale per un carattere suddiviso per classi La tabella seguente riporta la distribuzione delle età rilevate in un campione di 100 persone. Età Frequenza 20 ≤ età < 30 15 30 ≤ età < 40 25 40 ≤ età < 50 18 50 ≤ età < 60 32 60 ≤ età < 70 10 Totale: 100 Le classi hanno tutte la stessa ampiezza ( uguale a 10) perciò la classe modale è quella che ha maggiore frequenza, ossia la classe: 50 ≤ età < 60 La tabella seguente riporta la distribuzione delle età rilevate in un campione di 100 persone, però le classi non hanno la stessa ampiezza: Poiché le classi non hanno tutte la stessa ampiezza, è necessario dividere le frequenze per le ampiezze delle corrispondenti classi, in modo da calcolare la densità di frequenza: Età Frequenza 10 ≤ età < 20 15 20 ≤ età < 35 25 35 ≤ età < 45 18 45 ≤ età < 65 32 65 ≤ età < 70 10 Totale: 100 Se ne ricava che la classe modale è : 65 ≤ età < o, è la stessa cosa: [65, 70)

10 Elaborazione dei dati Esempio: Classi di frequenza
Facciamo riferimento all’esempio su un’indagine sulla statura di un gruppo di 39 coetanei: Classe Intervallo (cm) Frequenza assoluta [135, 140) 9 [140, 145) 6 [145, 150) 5 [150, 155) 8 [155, 160) 11 Classe modale: 155 – perché ha la frequenza assoluta maggiore, indicata anche: [155, 160) Classe mediana: poiché abbiamo un numero dispari di dati (39) la mediana è data dalla 19 esima classe che è: [145 – 150) . La mediana appartiene a tale classe che risulta dunque la classe mediana. Come approssimazione, prendiamo il valore centrale di tale classe. Il valore centrale della classe [145 – 150) è : Media ponderata: Consideriamo il valore centrale di ogni classe: Classe Intervallo (cm) Valore centrale [135, 140) 137,5 [140, 145) 142,5 [145, 150) 147,5 [150, 155) 152,5 [155, 160) 157,5

11 Elaborazione dei dati Classi di frequenza
Classe Intervallo (cm) Frequenza assoluta [135, 140) 9 [140, 145) 6 [145, 150) 5 [150, 155) 8 [155, 160) 12 Facciamo riferimento all’esempio su un’indagine sulla statura di un gruppo di 40 coetanei: Classe modale: [155, 160) perché ha la frequenza assoluta maggiore Mediana: la media tra il valore centrale della classe [145, 150) al 20° posto ed il valore centrale della classe [150, 155) al 21 posto Il valore centrale della classe [145, 150) è : Mediana = Il valore centrale della classe [150, 155) è : Media ponderata Consideriamo il valore centrale di ogni classe: Classe Intervallo (cm) Valore centrale [135, 140) 137,5 [140, 145) 142,5 [145, 150) 147,5 [150, 155) 152,5 [155, 160) 157,5

12 Elaborazione dei dati Quale valore di posizione è più opportuno?
Abbiamo preso in esame tre indici di posizione: la moda, la mediana e la media aritmetica. In generale è buona pratica calcolare tutti e tre questi valori; infatti essi forniscono informazioni complementari, che descrivono aspetti differenti. Per esempio, in riferimento alla retribuzione annua netta dei dipendenti di una azienda: sapere che la media dei salari è euro significa che, se il denaro complessivo speso per gli stipendi venisse distribuito in modo che il salario sia uguale per tutti, allora ciascuno riceverebbe euro l’anno; sapere che la mediana dei salari è euro, significa che la metà dei dipendenti percepisce uno stipendio superiore o uguale a euro e circa l’altra metà uno stipendio inferiore o uguale a euro. Sapere che la moda dei salari è euro, significa che questo è il salario più frequente, cioè percepito dalla maggior parte di persone. Ancora Sebbene la media aritmetica sia certamente il valore più noto ed utilizzato, a seconda del particolare fenomeno preso in esame la mediana e la moda possono talvolta rivelarsi più idonei. Per esempio, se calcoliamo la media aritmetica tra i valori: 3, 4, 4, 6, 7, 8, 9, troviamo come risultato m = 17,6 e possiamo notare che ben sette degli otto numeri sono più piccoli della media aritmetica. In questo caso la media aritmetica è poco rappresentativa dei dati, perché è eccessivamente influenzata dal valore anomalo 100; è più rappresentativa dei dati la mediana, che vale 6,5. Una situazione analoga si verifica, per esempio, nelle rilevazioni dei redditi o dei consumi, in cui i dati possono presentare valori «anomali» molto grandi o molto piccoli: in tali casi la mediana tende di solito a fornire un valore più rappresentativo della media aritmetica (troppo sensibile ai valori «anomali»). Se invece consideriamo, per esempio, il caso di un negoziante che deve scegliere la taglia di pantaloni di cui ordinare il maggiore numero di capi, allora è chiaro che il valore di sintesi più rappresentativo risulta la moda: il negoziante sceglierà la taglia più comune, ovvero quella acquistata più di frequente.

13 LA VARIABILITA’ Campo di variazione, varianza e scarto quadratico medio In precedenza abbiamo visto come sia possibile sintetizzare un’indagine statistica mediante gli indici di posizione; è facile rendersi conto che non sempre tali indici sono sufficienti a dare, da soli, una corretta visione d’insieme di un fenomeno. Consideriamo, a questo proposito, un semplice esempio: In un gruppo A, di dieci individui, le retribuzioni nette annue pro capite sono (in euro): 2.000 ; ; ; ; 4.000; 5.000; 5.000; 5.000; In un gruppo B, sempre di dieci individui, le retribuzioni nette annue pro capite sono, invece (in euro): ; ; ; ; ; ; ; ; ; La media aritmetica nei due gruppi è la stessa; euro, ma le situazioni sono completamente diverse! Nel gruppo A ci sono molti “poveri” ed un solo “ricco”, cosa che non si presenta nel gruppo B. L’aspetto che la media aritmetica non riesce a cogliere è la cosiddetta variabilità, che si può definire come segue: Si chiama variabilità l’attitudine di un fenomeno a manifestarsi sulle varie unità statistiche con modalità diverse e distanti tra loro. Per dare una misura della variabilità di un certo carattere si definiscono degli indici opportuni, detti indici di variabilità.

14 LA VARIABILITA’ Altro esempio
In una classe si sono svolte due verifiche scritte di matematica. I voti ottenuti dagli studenti, e la media di ciascuna verifica, sono riportati nella tabella: La media dei voti è 6 per entrambe le verifiche, tuttavia la distribuzione dei voti nelle due verifiche è diversa, come evidenziato dagli istogrammi. Nella seconda verifica, infatti, i voti sono più concentrati, ossia più vicini alla media, mentre nella prima i voti sono più dispersi.

15 LA VARIABILITA’ Tale osservazione è confermata dalla tabella sotto riportata, dove, insieme ai voti, sono riportati gli scarti, ossia la differenza tra ciascun voto e la media. Come si vede, gli scarti dalla media sono più pronunciati nella prima verifica. Queste considerazioni ci suggeriscono che la media aritmetica, pur essendo un importante valore di sintesi di una distribuzione statistica, non può riassumere tutte le informazioni contenute nei dati; in particolare la media aritmetica non ci dice nulla relativamente alla dispersione dei dati, ossia se questi siano più o meno vicini alla media. E’ quindi evidente la necessità di un indice statistico che possa “misurare” la dispersione dei dati.

16 LA VARIABILITA’ Campo di variazione
Il più semplice di tali indici è il campo di variazione; esso è la differenza fra la più piccola e la più grande fra le modalità osservate. Per esempio, nel caso dei redditi del gruppo A dell’esempio precedente, il campo di variazione è: euro – euro = euro ; mentre per il gruppo B il campo di variazione è: euro – euro = euro Tale indice fornisce una misura di variabilità piuttosto grossolana; esso dipende, infatti, solo da due modalità (quelle estreme) e non è influenzato dal variare delle altre.

17 LA VARIABILITA’ Varianza
Siano: x1, x2, …, xn le n modalità osservate. Indichiamo con la loro media aritmetica. Calcoliamo i cosiddetti scarti dalla media, cioè le differenze: Per ottenere un unico numero che esprima una misura della variabilità dei dati osservati, calcoliamo la media aritmetica dei quadrati degli scarti, a cui sui da il nome di varianza. Dati n numeri: x1, x2, …, xn di media aritmetica , si chiama loro varianza V la media aritmetica dei quadrati degli scarti: La formula precedente può essere scritta anche nel modo seguente: più facile da calcolare.

18 LA VARIABILITA’ Varianza
Se è data una distribuzione di frequenze, nel calcolo della varianza occorre terne conto, calcolando la media aritmetica ponderata dei quadrati degli scarti, con pesi uguali alle rispettive frequenze. Le formule precedenti diventano le seguenti, dove abbiamo indicato con f1,…,fk rispettivamente le frequenze delle modalità : x1,…,xk La formula precedente può essere scritta anche nel modo seguente Anche la varianza ha tuttavia un difetto: a causa dell’elevamento al quadrato degli scarti, non presenta la stessa unità di misura del carattere. Per questo motivo si definisce un ulteriore indice, che ristabilisce l’unità di misura e risulta perciò solitamente preferibile alla varianza.

19 LA VARIABILITA’ Deviazione standard (o scarto quadratico medio)
Dati n numeri: x1, x2, …, xn, si definisce loro deviazione standard (o scarto quadratico medio) la radice quadrata della loro varianza: Quindi la deviazione standard di una distribuzione di dati è la radice quadrata della media aritmetica dei quadrati degli scarti dei singoli dati: La deviazione standard si indica con la lettera s o con la lettera (sigma) La deviazione standard evidenzia quanto i dati si discostano dalla loro media aritmetica, misurando la distanza media dei dati dalla media aritmetica. La deviazione standard ci dice che c’è la probabilità del 68% che un dato sia compreso tra: e N.B. Osserva che sia la varianza, sia la deviazione standard posseggono tutte le caratteristiche che ragionevolmente deve soddisfare un indice di variabilità: - assumono valore minimo, uguale a zero, se e solo se tutti i dati osservati sono uguali; - assumono valori positivi in caso di dati variabili, via via più grandi all’aumentare della variabilità dei dati.

20 LA VARIABILITA’ Esempio 1: calcolo varianza e scarto quadratico medio
Nella classe 1 A di una scuola tutti i 20 studenti hanno meritato 6 nel compito in classe; nella classe 1 B, invece, anch’essa di 20 studenti, la metà degli studenti ha meritato 4 e l’altra metà 8. Calcoliamo la varianza e la deviazione standard nei due casi. Nella classe 1A gli studenti hanno preso tutti lo stesso voto: non c’è quindi variabilità. E’ immediato concludere che sia la varianza, sia la deviazione standard sono uguali a zero. Rappresentiamo la distribuzione di frequenze dei voti della classe 1 B: Voti Frequenza 4 10 8 Calcoliamo la media dei voti della classe: Per il calcolo della varianza utilizziamo la formula “abbreviata” per le distribuzioni di frequenze: La deviazione standard è perciò:

21 LA VARIABILITA’ Esempio2: calcolo deviazione standard
Il prezzo della stessa confezione di profumo è stato rilevato in sei negozi di una città, ottenendo i seguenti risultati, espressi in euro: Calcola la deviazione standard (o scarto quadratico medio). Calcoliamo la media aritmetica: Calcoliamo gli scarti di ciascun dato dalla media: (83 – 78)2 = (5)2 (80 – 78)2 = (2)2 (75 – 78)2 = (-3)2 (73 – 78)2 = (-5)2 (88 – 78)2 = (10)2 (69 – 78)2 = (-9)2 Calcoliamo la deviazione standard: Risulta, pertanto che la distanza media dei prezzi della confezione dal prezzo medio è di 6,38 euro, che corrisponde al : cioè l’ 8% del prezzo medio.

22 Curva di GAUSS Se è disponibile un numero elevato di dati, si compila la tabella di distribuzione delle frequenze. Se si rappresenta graficamente la distribuzione delle frequenze con un istogramma e si uniscono con un spezzata i punti medi delle basi superiori dei rettangoli, si ottiene una linea particolare, che pare riprodurre il profilo di una campana: Quando ciò si verifica si dice che l’insieme dei dati presenta una distribuzione normale delle frequenze e la linea a campana prende il nome di curva di Gauss.


Scaricare ppt "Elaborazione dei dati Indici di posizione centrale"

Presentazioni simili


Annunci Google