statistica le medie di posizione alessandro polli facoltà di scienze politiche, sociologia, comunicazione 9 marzo 2015
Generalità Obiettivo Nelle scorse lezioni abbiamo sottolineato che uno degli principali obiettivi dei metodi statistici è quello di sintetizzare, cioè fornire una rappresentazione semplificata del fenomeno rilevato in un collettivo, allo scopo di agevolare la sua analisi da parte dell’osservatore Tale operazione di sintesi può essere effettuata tramite opportune rappresentazioni grafiche (Cfr. lezione precedente) o attraverso il calcolo di parametri distributivi: parametri di posizione, di variabilità, di forma Il calcolo di tali parametri è importante in quanto, a differenza di una rappresentazione grafica, i parametri distributivi sono per lo più definiti in uno spazio numerico e possono quindi essere ulteriormente elaborati con procedimenti matematici
Generalità Alcuni concetti di base In precedenza, abbiamo adottato una nozione intuitiva dei concetti di frequenza assoluta, frequenza relativa e frequenza relativa cumulata. Adesso tentiamo di renderle più generali e individuiamone le principali proprietà matematiche, aiutandoci con qualche esempio Esempio 1. Ipotizziamo che la ACME Corporation sia interessata al giudizio dei suoi clienti per i servizi post-vendita e, a questo scopo, abbia svolto una semplice indagine telefonica, domandando a 100 clienti estratti casualmente di esprimere il grado di soddisfazione per tali servizi su una scala che va da «per niente soddisfatto» a «completamente soddisfatto»
Generalità Alcuni concetti di base Ipotizziamo anche che i risultati delle interviste siano stati raccolti nel seguente prospetto di sintesi:
Generalità Alcuni concetti di base Frequenze assolute Frequenze relative cumulate
Generalità Alcuni concetti di base L’analisi del grafico relativo alla distribuzione delle frequenze assolute ci consente di individuare con immediatezza i principali risultati dell’indagine e a verificare che le risposte «neutrali» (né soddisfatto, né insoddisfatto) sono le più frequenti Ma è possibile introdurre una maggiore «accuratezza» nelle nostre descrizioni? E se sì, come?
Generalità Alcuni concetti di base: frequenza assoluta Premesso che un carattere oggetto di rilevazione in un collettivo necessariamente assume un certo numero di modalità distinte (ricordiamo quello che dicevamo a proposito del fenomeno: insieme di fatti che avvengono intorno a noi e che si manifestano attraverso cambiamenti di stato … ), intendiamo per «modalità» gli attributi, i valori numerici o gli intervalli di valori numerici che un carattere può assumere Dato un carattere oggetto di rilevazione in un collettivo, definiamo frequenza assoluta il numero di unità statistiche che assumono una determinata modalità del carattere
Generalità
Alcune definizioni La media come misura di dislocazione spaziale Per sintetizzare un fenomeno osservato in un collettivo potremmo fare riferimento ad una qualche specificazione della sua «dislocazione spaziale» rispetto alla scala di misurazione Nel caso di fenomeni definiti su scala nominale, il concetto di dislocazione spaziale non ha senso, per cui l’unica affermazione di sintesi che è possibile fare si riferisce alla modalità alla quale è associata frequenza (assoluta o relativa) massima Nel caso di fenomeni definiti su scala ordinale è anche possibile individuare la modalità del carattere che bipartisce il collettivo ordinato Nel caso di fenomeni definiti su scala quantitativa (cioè definiti su uno spazio numerico) è inoltre possibile individuare una qualche misura della «tendenza centrale», cioè dell’ordine di grandezza del fenomeno analizzato
Alcune definizioni
Medie di posizione e medie di calcolo Riprendendo la definizione di media di Chisini, che tratteremo in seguito, nel 1929 Corrado Gini introduce la distinzione tra: Medie di posizione (o lasche), il cui valore non dipende da tutti gli elementi di un insieme osservato. Sono classificate come medie di posizione la moda, il termine centrale, la mediana e in generale i quantili; Medie di calcolo (o ferme), il cui valore, viceversa, dipende da tutti i termini della serie analizzata. Appartengono alla famiglia delle medie di calcolo le c.d. medie di potenze e, in particolare, le medie pitagoriche (media aritmetica, geometrica, armonica)
Le medie di posizione La moda Nella precedente trattazione abbiamo presentato una nozione intuitiva del concetto di moda. Adesso proviamo a rendere più rigorosa questa prima intuizione da un punto di vista matematico, aiutandoci con un esempio Esempio 2. Ipotizziamo che alla vigilia della prossima tornata elettorale un istituto demoscopico domandi ad un campione di 1000 elettori di esprimere l’orientamento al voto e che i risultati delle interviste siano riassunti nel seguente prospetto di sintesi:
Le medie di posizione La moda Domanda: qual è la proprietà essenziale del fenomeno oggetto di studio (le intenzioni di voto) rilevato all’interno del collettivo, quella che ci consente di caratterizzare sinteticamente i risultati?
Le medie di posizione La moda Aiutiamoci con alcune rappresentazioni grafiche:
Le medie di posizione
La moda Con riferimento all’ortogramma a colonne precedente, la moda può essere individuata in maniera agevole: Frequenza assoluta massima Moda
Le medie di posizione
La moda Esempio 3. Ipotizziamo che la ACME Corporation abbia rilevato le retribuzioni medie mensili dei suoi dipendenti e che abbia raccolto tali informazioni nel seguente prospetto di sintesi, da inserire nel bilancio consuntivo 2014:
Le medie di posizione La moda Nel caso di un carattere definito sul continuo e ripartito in intervalli (classi), le singole colonne dell’istogramma hanno una superficie pari alla frequenza (assoluta o relativa) delle classi in cui il carattere è ripartito Poiché ogni classe è caratterizzata da una data ampiezza (intesa come differenza tra il suo estremo superiore e quello inferiore), definiremo densità di frequenza dell’i-esima classe il rapporto tra la sua frequenza assoluta o relativa (intesa come area dell’i-esima colonna dell’istogramma) e la relativa ampiezza della classe Il calcolo della densità di frequenza ci consente di fornire una rappresentazione non distorta della distribuzione di frequenze nel caso di un carattere continuo
Le medie di posizione
La moda Ampiezza della classe Densità di frequenza
Le medie di posizione La moda Classe modale Densità di frequenza massima
Le medie di posizione La moda Una volta calcolata la distribuzione delle densità di frequenza, possiamo disegnare l’istogramma e individuare la classe modale tramite ispezione grafica: Densità di frequenza massima Classe modale
Le medie di posizione La mediana Nelle passate lezioni abbiamo presentato una nozione intuitiva del concetto di mediana, definendola come la modalità del carattere che bipartisce il collettivo. Come per la moda, proviamo ora a rendere più rigorosa questa prima intuizione da un punto di vista matematico, aiutandoci con un esempio Esempio 4. Ipotizziamo che la ACME Corporation abbia estratto dai fascicoli del personale informazioni sul livello di scolarità dei propri dipendenti e abbia riassunto i risultati nel seguente prospetto di sintesi, da inserire nel bilancio sociale 2014:
Le medie di posizione La mediana
Le medie di posizione La mediana Il livello di scolarità è un carattere qualitativo definito su scala ordinale: in questo caso le modalità del carattere, pur essendo attributi non definiti su scala numerica, possono essere ordinate secondo un criterio logico, da un livello minimo (assenza del carattere oggetto di studio, nel nostro caso «nessun titolo») ad un livello massimo riconosciuto di scolarità (nel nostro caso «master/dottorato di ricerca») Come cogliere le proprietà essenziali del fenomeno «scolarità» nel collettivo dei dipendenti della ACME Corporation? Ovviamente possiamo individuare la classe modale, applicando la procedura illustrata in precedenza:
Le medie di posizione La mediana Come di consueto, possiamo fare riferimento alla distribuzione delle frequenze (assolute o relative): Moda Frequenza assoluta massima
Le medie di posizione La mediana In alternativa, possiamo individuare la moda avvalendoci di un grafico (in questo caso un ortogramma a nastri): Moda Frequenza assoluta massima
Le medie di posizione La mediana Ipotizziamo di ordinare i 75 dipendenti della ACME in base al livello di scolarità conseguito. Consideriamo adesso il 38° dipendente, cioè quello che è in posizione «centrale» nel collettivo ordinato. Consultando la Tabella 4 è immediato verificare che il titolo di studio del dipendente in questione è un diploma di scuola media superiore Quindi non soltanto in questo esempio il diploma di scuola media superiore è il livello di scolarità al quale è associata la frequenza (assoluta o relativa) massima all’interno del collettivo (e quindi è la moda), ma tale livello di scolarità partiziona il collettivo in due sottoinsiemi di uguale numerosità È importante questa informazione? Certamente sì, in quanto ciò comporta che metà del personale ha un titolo di studio minore o al limite uguale a quello del 38° dipendente, mentre l’altra metà dei dipendenti della ACME ha un livello di scolarità almeno pari alla scuola media superiore. La modalità del carattere che caratterizza il 38° dipendente è indicata come mediana
Le medie di posizione La mediana Su un piano operativo, possiamo fare riferimento alla distribuzione delle frequenze relative cumulate: La cumulata è ≥ 0,5 Modalità mediana
Le medie di posizione La mediana In alternativa, posso rappresentare graficamente la distribuzione delle frequenze relative cumulate e individuare la classe mediana: Modalità mediana La cumulata è ≥ 0,5
Le medie di posizione
La mediana: ulteriori qualificazioni Esempio 5. Ipotizziamo che il numero di figli per donna in età fertile nel Comune di Ivrea nel 2014 sia riportato nel seguente prospetto di sintesi:
Le medie di posizione Mediana
Le medie di posizione Mediana La 7775° unità nel collettivo ordinato ha 1 figlio
Le medie di posizione La mediana: ulteriori qualificazioni Esempio 6. Ipotizziamo che il numero di figli per donna in età fertile nel Comune di Poggibonsi nel 2014 sia riportato nel seguente prospetto di sintesi:
Le medie di posizione Mediana
Le medie di posizione Mediana La 1209° e la 1210° unità nel collettivo ordinato non hanno figli
Le medie di posizione La mediana: ulteriori qualificazioni Esempio 7. Ipotizziamo che il numero di figli per donna in età fertile nel Comune di Borgo Velino nel 2014 sia riportato nel seguente prospetto di sintesi:
Le medie di posizione Mediana
Le medie di posizione Mediana La 21° unità nel collettivo ordinato ha 1 figlio, la 22° ne ha 2
Le medie di posizione
La mediana: ulteriori qualificazioni Torniamo alla tabella dell’esempio 3 che ci fornisce la distribuzione di un carattere continuo ripartito in classi:
Le medie di posizione La mediana: ulteriori qualificazioni La procedura «standard» per l’individuazione della mediana ci conduce al seguente risultato: Classe mediana
Le medie di posizione
La mediana: ulteriori qualificazioni Esempio 8. L’ufficio marketing della catena di supermercati DELIGHT ha rilevato la spesa media mensile per l’acquisto di prodotti distribuiti nei suoi punti vendita nel mese di gennaio 2015, ottenendo il seguente prospetto di sintesi:
Le medie di posizione La mediana: ulteriori qualificazioni Ipotizziamo di volere determinare una stima puntuale della mediana. Preliminarmente, individuiamo la classe mediana con la procedura «standard»: Classe mediana
Le medie di posizione La mediana: ulteriori qualificazioni Poiché la spesa è definita su scala quantitativa continua ed è ripartita in classi, applichiamo la procedura di interpolazione esposta in precedenza per stimare la mediana come valore puntuale. Gli elementi necessari al calcolo sono:
Le medie di posizione
Generalizzazione: il concetto di quantile La mediana è uno strumento utile per la descrizione di un fenomeno osservato. La domanda che ci poniamo adesso è: la mediana è semplicemente un indice di posizione o è un elemento di una classe più generale di indici di posizione che partizionano le unità statistiche componenti un collettivo? Per rispondere al quesito, facciamo riferimento ad un semplice esempio. Conosciamo tutti lo slogan del movimento Occupy Wall Street: «We are 99%». Che significa tale slogan in realtà? Significa che se ordinassimo la popolazione mondiale in base al carattere «reddito annuale pro capite», il primo 99% per cento del collettivo ordinato, individuato da una qualche soglia di reddito, deterrebbe approssimativamente lo stesso ammontare di reddito dell’ultimo 1%
Le medie di posizione