Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica
I dati grezzi Il risultato della rilevazione del fenomeno X sulla popolazione U di numerosità N è un insieme di N osservazioni Ciascuna osservazione coincide con una (e una sola) delle k modalità xi previste dalla scala utilizzata. Esempio: il numero di partner degli studenti universitari: fenomeno X quantitativo e discreto, che si rileva contando; le sue modalità xi sono i numeri interi 0,1,...; la scala delle modalità è quantitativa rapporto.
Distribuzioni di frequenza L'analisi statistica procede per sintesi successive: l'obiettivo è di fare emergere dai dati, ad ogni livello di sintesi, informazioni utili a descrivere e spiegare il comportamento di X su U. Il numero di volte in cui una modalità xi è stata rilevata in U si chiama frequenza (assoluta). La somma delle frequenze assolute riproduce la numerosità N di U La colonna di destra costituisce la distribuzione di frequenza. La distribuzione delle frequenze assolute si costruisce per conteggio e consente di organizzare i dati in tabella
Variabili statistiche Le modalità xi , a seconda della natura del fenomeno X e della tipologia di scala utilizzata, possono essere attributi, categorie, numeri, intervalli Le frequenze fi sono sempre numeri interi non negativi Una variabile statistica (v.s.) è un insieme di k coppie {xi, fi}, X indica sia il fenomeno di interesse (prima di essere rilevato), sia la corrispondente variabile statistica (dopo la rilevazione e la strutturazione dei dati grezzi) Il passaggio dai dati grezzi alla v.s. ha “fatto ordine”, nel senso di rendere i dati più organizzati e leggibili, ma ha “perso l'ordine”, nel senso che non abbiamo più l'informazione sull'ordine con il quale i dati sono stati rilevati
Frequenze relative e percentuali Se l'obiettivo è il confronto delle distribuzioni di frequenza di X su più popolazioni con numerosità diversa, occorre depurare le frequenze assolute dall'influenza di N costruendo le frequenze relative Le percentuali sono le frequenze relative moltiplicate per 100
Frequenze cumulate Quando X è ordinale o cardinale è buona pratica costruire la v.s. ordinando in senso crescente le modalità osservate Le frequenze cumulate ci dicono quante sono le unità statistiche che manifestano una modalità non superiore di una certa …..ovvero minore o uguale a tale 46 studenti hanno non più di 5 partners (ovvero un num. di partners minore o uguale a 5) Il 50% degli studenti ha non più di 2 partners (il 50% degli studenti ha più di 2 partners)
Distribuzioni di frequenza per variabili statistiche con modalità raggruppate in classi Carattere continuo o con un numero di modalità molto elevato
20 10 10 20 Fenomeni quantitativi continui: classi di modalità 10 20 Scala delle modalità
20 10 10 20 Fenomeni quantitativi continui: classi di modalità Estremo inferiore Estremo superiore Classe aperta classi di modalità 20 10 10 20 Scala delle modalità
Fenomeni quantitativi continui: classi di modalità Estremi delle classi di modalità E.inferiore E.superiore Ampiezza della classe Scala o insieme delle modalità di X Classi di modalità Estremo sup. incluso Estremo inferiore incluso Estremo inferiore incluso Estremi esclusi Estremi inclusi
Estremo inferiore incluso 16 25 8 39 89 32 45 55 60 70 82
Ipotesi del valore centrale 38.5 50 57.5 65 76 13 10 5 10 12 16 25 8 39 89 32 45 55 60 70 82
nell’ipotesi di equi-ripartizione Le densità di frequenza Quante u.s. si osservano nell’intervallo per ogni unità di misura della v.s. (in questo caso l’anno) nell’ipotesi di equi-ripartizione Indicano l’addensamento delle osservazioni nelle diverse classi, al netto della diversa ampiezza 32 45 55 60 70 82
(rappresentazione grafica Le densità di frequenza 89 Istogrammi (rappresentazione grafica delle frequenze) 39 25 1.6 8 16 32 45 55 60 70 82 5
Rappresentazioni grafiche Dalle distribuzioni di frequenza (assolute, relative, % e cumulate) si possono costruire grafici I grafici sono alternativi alle tabelle: non si tratta di una ulteriore forma di sintesi, ma solo di una diversa presentazione I grafici sono preferibili alle tabelle soprattutto se k è grande Per i fenomeni qualitativi il grafico è un semplice disegno (barre, torte...), in cui l'altezza/lunghezza delle barre o la dimensione dello spicchio della torta danno un'idea della frequenza associata a ciascuna categoria xi osservata
Esempio
Rappresentazioni grafiche di fenomeni quantitativi Per i fenomeni quantitativi, dove anche le xi, oltre alle fi , sono dei numeri, si costruiscono dei diagrammi cartesiani: sull'asse delle ascisse si mettono le xi, su quello delle ordinate le fi o le pi Fenomeni discreti: il diagramma più efficace è quello a bastoncini : in corrispondenza di ogni modalità xi, identificata con un singolo punto sulle ascisse, si innalza un bastoncini alto quanto la corrispondente frequenza posta sulle ordinate Fenomeni continui: se si fa l'ipotesi del valore centrale questo equivale ad una discretizzazione (vedi sopra); se si fa invece l'ipotesi della distribuzione uniforme, la frequenza viene rappresentata da un'area, con un istogramma. L'istogramma è l'unica rappresentazione sensata quando le classi hanno un'ampiezza diversa.
Esempio
Sintesi del capitolo La prima forma di sintesi dei dati è data dalla distribuzione di frequenza assoluta che, per ogni modalità del carattere, ci dice quante u.s. presentano quella modalità: la loro somma da la numerosità totale della popolazione Per favorire il confronto si ricorre alle frequenze relative e percentuali che ci dicono quale quota di u.s. su 1 (o su 100) presentano una certa modalità: la loro somma da 1 (o 100) Un’ informazione ulteriore è costituita dalle frequenze cumulate che, per ogni modalità, ci dice quante u.s. presentano un valore minore o uguale a quella data modalità: hanno senso solo se il carattere è almeno ordinabile Quando il carattere è continuo o misurato con una scala che prevede un elevato numero di modalità (generalmente quantitativa), si ricorre a distribuzioni di frequenza per modalità raggruppate in classi, caratterizzate da una certa ampiezza e da un certo valore centrale La densità rappresenta l’addensamento della frequenza in ogni classe e consente di svincolar e il giudizio sulla frequenza dall’ampiezza della classe