La Statistica La statistica è una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno. Studia i modi (descritti attraverso formule matematiche) in cui una realtà fenomenica - limitatamente ai fenomeni collettivi - può essere sintetizzata e quindi compresa.
Introduzione La statistica è la scienza che studia fenomeni di interesse generale,ed è una parte di studio della matematica. Essa si divide in : 1) metodologica ; 2) applicativa. La prima riguarda il metodo statistico e i concetti di carattere generale,la seconda utilizza il metodo statistico nei più svariati campi. Appartengono alla Statistica applicata discipline quali: -la statistica demografica; -la statistica biometria; -la statistica sanitaria; -la statistica economica; -la statistica giudiziaria;
Indagine statistica Un’indagine statistica si articola nelle seguenti fasi: Prima fase: determinazione del fenomeno da sottoporre a ricerca statistica; Seconda fase:determinazione della popolazione oggetto dell’indagine statistica; Terza fase:rilevazione dei dati statistici o caratteri ; Quarta fase:rilevazione dei dati statistici; Quinta fase:spoglio o rappresentazione grafiche dei dati rilevati; Sesta fase:elaborazione dei dati che consente di: -formulare leggi empiriche -ricavare previsioni -operare scelte e prendere decisioni applicative
Statistica Sesta fase: Prima fase: il problema Seconda fase: Elaborazione dati Prima fase: il problema Seconda fase: popolazione Terza fase: caratteri Quinta fase: grafici Approfondimenti Quarta fase: Indici di variabilità Teoria degli errori Curva di Gauss Statistica
Determinazione del fenomeno da sottoporre ad indagine statistica La Statistica ricerca le leggi che regolano i fatti appartenenti a due distinte classi di fenomeni: la classe dei fenomeni naturali; la classe dei fenomeni sociali. I fenomeni relativi alla prima classe sono denominati “naturali” perché cadono sotto il dominio delle scienze naturali quali la fisica, la chimica, la biologia, ecc. Essi, non solo si possono osservare nelle manifestazioni spontanee, ma, in diversi casi, si possono riprodurre in laboratorio attraverso esperimenti svolti con modalità e condizioni ambientali invarianti. Le leggi che si ricavano sono, nella maggioranza dei casi, espresse in termini matematici, in altre parole, esiste una relazione algebrica che lega le grandezze protagoniste del fenomeno. I fenomeni relativi alla seconda classe sono denominati “sociali” perché cadono sotto il dominio delle scienze sociali, quali la demografia, l’economia, la psicologia, la sanità, la sociologia, ecc. I fenomeni sociali, al contrario di quelli naturali, non si possono ricostruire in laboratorio, sicché bisogna accontentarsi di osservarli nelle condizioni di tempo e di luogo in cui si manifestano spontaneamente e da cui si ricavano leggi empiriche cioè non riproducibili in relazioni matematiche. Se consideriamo i seguenti fenomeni di studio: fenomeno relativo alla caduta di un grave; fenomeno relativo alle nascite avvenute in Italia dal 1974 al 1984, il primo è un fenomeno naturale il secondo è sociale. home
Determinazione della popolazione Nella seconda fase, dopo aver determinato il fenomeno che si vuole sottoporre a ricerca statistica, si stabilisce su quale spazio di elementi si dovrà porre tale indagine. Tale spazio detto popolazione è strettamente legato al tipo di fenomeno da studiare. Se lo spazio è tutta la popolazione l’indagine è totale (ricordiamo i censimenti) altrimenti è parziale e si stabilisce uno spazio campione su cui lavorare che deve riprodurre lo spazio campione in modo uniforme (ad esempio stessa percentuale di maschi, donne, bambini, anziani ecc.). home
Schema caratteri di una unità statistica Si possono distinguere due tipi di caratteri: caratteri di tipo qualitativo caratteri di tipo quantitativo Un carattere di tipo qualitativo si esprime mediante aggettivi o nomi detti modalità. Un carattere di tipo quantitativo si esprime attraverso modalità numeriche
Popolazioni o universo Caratteri delle unita statistiche Unità statistiche Caratteri delle unita statistiche Caratteri di tipo qualitativo Caratteri di tipo quantitativo (Modalità non numeriche classi aggettivi, nomi, professioni,ecc) (Modalità numeriche, intensità, oppure classi di intensità). Serie statistica Seriazione statistica (Successione dei dati statistici, (Successione dei dati statistici cioè delle frequenze) cioè delle frequenze) Caratterecontinuo Carattere discreto (le intensità assumono soltanto un numero finito di valori) (Le intensità assumonotutti gli infiniti valori numerici reali di intervallo)
Rilevazione dati La rilevazione in funzione del tempo si può suddividere in: rilevazioni continue rilevazioni periodiche rilevazioni occasionali. Una rilevazione si suddivide in totale se effettuata sulle unità statistiche di tutto l’universo della popolazione, altrimenti è parziale ed è effettuata su uno spazio campione.
Rilevazione dei dati Rivelazione totale dati Rilevazione parziale home svantaggi: problema dell’estensione quantitativa del campione; problema della composizione qualitativa del campione;problema dell’estensione dei risultati dal campione all’universo. Rilevazione parziale Ristretta ad una parte dell’universo vantaggi: risparmio di tempo; risparmio di spesa home
INDICI DI POSIZIONE CENTRALE Gli indici di posizione centrale sono chiamati, più precisamente, valori medi o medie di un insieme di dati statistici. Un valore medio di un insieme di dati numerici: { x1,x2,……,xn } è un particolare numero M che, da solo, è capace di rappresentare sinteticamente l’ intero insieme dei predetti dati che, per scopi prefissati, è ad esso sostituibile. È facile convincersi che M è, in ogni caso, un numero compreso tra il minimo e il massimo dei dati x1,x2,……,xn. I valori medi più importanti sono i seguenti: 1) la media aritmetica 2) la moda 3) la mediana La media aritmetica è il rapporto tra la somma dei valori e il numero totale dei valori n. La moda è il valore che si ripete con maggiore frequenza,mentre la mediana è il valore centrale dell’insieme ordinato dei valori . D’ora in poi con M indicheremo la media aritmetica
Indici di variabilità 1)Campo di variazione È il più semplice degli indici di variabilità. Esso è dato dalla differenza tra il dato massimo e il dato minimo. Ossia: Tale indice equivale all’ampiezza del minimo intervallo che contiene tutti i dati.
Indici di variabilità 2)Scarto semplice medio Si ottiene la formula di un nuovo indice di variabilità, detto scarto semplice medio: Lo scarto semplice medio è uguale alla media aritmetica dei valori assoluti degli scarti semplici di ciascun dato x dalla media aritmetica M.
Indici di variabilità 3)Varianza Consideriamo la successione di dati statistici : aventi la seguente media aritmetica: Le differenze sotto indicate: tra ciascun dato e la media aritmetica si chiamano scarti semplici dei dati statistici dalla loro media aritmetica M. Si verifica facilmente che la sommatoria di tutti gli scarti semplici è uguale a zero, ossia che: Se calcoliamo la media aritmetica di questi scarti quadratici:
Indici di variabilità Ricaviamo un indice di variabilità detto varianza
Indici di variabilità 4)Scarto quadratico medio Eseguendo la radice quadratica della varianza, otteniamo per risultato quell’importante indice di variabilità che si chiama scarto quadratico medio:
Indici relativi della variabilità Gli indici E, S, , che abbiamo presentato, sono indici assoluti,ossia sono espressi nella stessa unità di misura dei dati da elaborare. Gli indici assoluti servono solo per confrontare le variabilità di due insiemi di dati omogenei,cioè che siano valori della stessa grandezza: infatti, non ha alcun senso confrontare direttamente, per esempio,temperature(C) con lunghezze (m),oppure masse(kg)con tempi(sec),ecc. Per poter confrontare due successioni di dati non omogenei,cioè due insiemi di valori di due grandezze distinte,occorre svincolarsi dalle rispettive unità di misura. Tale obbiettivo si raggiunge introducendo nuovi indici, detti indici relativi di variabilità;essi sono numeri puri che si ottengono,in generale,dai rapporti degli indici assoluti di variabilità con la media aritmetica dei dati.
Indici relativi della variabilità 1)IL CAMPO DI VARIAZIONE RELATIVO: ER =E/M 2)LO SCARTO SEMPLICE MEDIO RELATIVO SR =S/M 3)LO SCARTO QUADRATICO MEDIO RELATIVO /M home
Grafici Nella quinta fase la rilevazione statistica può essere rappresentata con vari tipi di grafici essi sono: Gli ideogrammi: rappresentano l’entità di una grandezza con un simbolo che richiama alla mente l’idea di ciò che si intende rappresentare, ad esempio la popolazione di un territorio può essere rappresentata attraverso l’uso di figure stilizzate di uomini e donne; ogni simbolo rappresenta una quantità ad esempio ogni figura stilizzata rappresenta 100.000 abitanti; talvolta i simboli hanno dimensione fissa e varia il numero, in altri casi varia la dimernsione del simbolo. In ogni caso la legenda ci fornisce la chiave di lettura da utilizzare.
Grafici Gli istogrammi lineari: sono grafici in cui le grandezze che descrivono dei fenomeni sono rappresentate da linee spezzate in un riferimento cartesiano ortogonale Questo è il grafico delle oscillazioni dei prezzi di combustibili fossili dal 1980 al 2001in dollari/barili equivalenti di petrolio
Grafici Gli ortogrammi o istogrammi a colonne: sono grafici in cui le grandezze che descrivono dei fenomeni sono rappresentate da figure geometriche, in genere rettangoli o parallelogrammi la cui altezza o area o volume è proporzionale al fenomeno che rappresenta; talvolta questi grafici vengono ruotati di 90° in modo che le figure geometriche siano poste orizzontalmente. Questo istogramma rappresenta la crescita % della popolazione di alcune grandi città del cosiddetto terzo mondo; le barre di diverso coloro permettono di confrontare la crescita della popolazione della città vera e propria con la crescita della popolazione della baraccopoli
Grafici Gli areogrammi: l’area del cerchio (o del quadrato) rappresenta la totalità del fenomeno, ossia il 100%, ogni spicchio corrisponde ad una data percentuale; sono anche comunemente detti grafici a torta. Areogrammi o grafici a torta si utilizzano per rappresentare le componenti % di un fenomeno; come puoi vedere sono molto facili da leggere e consentono una percezione immediata delle proporzioni
Grafici I cartogrammi: si usano per raffigurare la distribuzione di un fenomeno su un territorio, infatti la base del cartogramma è una carta geografica sulla quale vengono visualizzati con opportuni simboli gli elementi che si intendono rappresentare, ad esempio i minerali, le industrie, i prodotti agricoli e così via.
Cartogramma Rappresenta i saldi provvisori dei movimenti di energia elettrica in Italia nel 2003 in GWh. home
ELABORAZIONE DEI DATI L’ elaborazione dei dati è quella fase dell’ indagine statistica che consiste nella trasformazione dei dati grezzi rilevati in nuovi dati, ricavati matematicamente, dotati della proprietà di essere più sintetici, indicati e interpretabili ai fini della scoperta delle leggi empiriche che regolano il fenomeno in oggetto. Prenderemo in esame quelle elaborazioni che portano alla determinazione di due importanti tipi di indici sintetici: gli indici di posizione centrale o medie e gli indici di dispersione o di variabilità. Si costruisce una tabella delle frequenze per ogni dato (frequenza= numero di volte che il dato si ripete) con relativo grafico
La distribuzione Quando dobbiamo giudicare un evento possiamo descriverlo con la distribuzione dei suoi possibili valori. Se analizziamo la distribuzione di un campione di persone che seguono un certo programma televisivo per decadi di età, magari otteniamo un grafico di questo tipo:
Curva di Gauss Le cose si complicano quando ho molti valori possibili, addirittura infiniti. Supponiamo per esempio di effettuare tante misurazioni di una stessa grandezza con uno strumento; avremo risultati differenti, dovuti all'inevitabile imprecisione del nostro strumento e del nostro operato, che sono detti errori accidentali. Se rappresentiamo le misure ottenute su un grafico, se il numero di misurazioni è molto grande, al limite infinito, la curva che otterremo è proprio la curva di Gauss. Si tratta di una curva dalla classica forma a campana che ha un massimo attorno alla media dei valori misurati e può essere più o meno stretta a seconda della dispersione dei valori attorno alla media; la dispersione si misura con la deviazione standard: praticamente una delle proprietà della gaussiana è che il 68% delle misurazioni differisce dalla media meno della deviazione standard e che il 95% meno di due deviazioni standard: quindi maggiore è la deviazione standard, più la gaussiana è "aperta" e più c'è la possibilità che la media (il punto più alto) non sia rappresentativo di tanti casi. Anche nel caso della curva di Gauss l'area sottesa dalla curva vale 1 perché la somma delle probabilità di tutti i valori dà 1, cioè la certezza.
Un esempio reale La distribuzione di Gauss è spesso detta normale. L'aggettivo è significativo perché indica che moltissimi fenomeni possono essere descritti da una curva gaussiana o Gauss-like (cioè simile). Se è vero che la gaussiana vale per una popolazione infinita di misurazioni e per eventi del tutto casuali, è altresì vero che curve a campana (Gauss-like) possono descrivere facilmente molti fenomeni; per detti fenomeni anche i concetti di media e di deviazione standard continuano a essere validi, anche se spesso solo il primo può essere definito con una notevole precisione. Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un campione di 1.000 soggetti. Probabilmente otterremmo una curva a campana, centrata attorno a una media, del tipo 174 cm di media con una "deviazione standard" di circa 20 cm, cioè il 95% dei soggetti analizzati sarebbe compreso fra 154 cm e 194 cm. home
APPROFONDIMENTI CENNI DI CALCOLO DELLE PROBABILITA’ Si definisce variabile casuale x (o aleatoria) una quantità variabile che può assumere i valori X1, X2, Xn, al realizzarsi degli eventi incompatibili e complementari E1, E2,… En aventi rispettivamente probabilità p1, p2, pn. Definiamo uno spazio di probabilità Ω in questo modo: 1) p (Ω)= 1 con Ω= E1 υ E2 υ … υ En 2) p (Ø)= 0 3) 0≤ p (Ei) ≤1 con i=1, …n 4) p (E1 υ E2) = p (E1) υ p (E2) con Ei incompatibili cioè i ≠ j
Funzione di probabilità Si dice variabile casuale continua una variabile casuale che può assumere qualsiasi valore reale appartenente a un certo intervallo limitato o illimitato. Per descrivere una variabile casuale continua non si può più utilizzare una distribuzione di probabilità P(x) la quale, per ogni x, dà la probabilità che X assuma proprio quel valore,ma sarà necessario ricorrere alla funzione di ripartizione, che esprime la probabilità che la variabile causale assuma valori compresi in un certo intervallo, o alla funzione di densità.
Distribuzione di Gauss Tra le variabili casuali continue, la più importante per la varietà di situazioni in cui trova applicazione è quella a distribuzione normale o di Gauss, che assume qualsiasi valore reale, avente la seguente funzione di densità. f(x) = I parametri che descrivono tale distribuzione sono: - M, che corrisponde al valore medio M(X) e quindi rappresenta il valore rispetto a cui la distribuzione è simmetrica; - σ, che è lo scarto quadratico medio σ(X), quindi rappresenta la dispersione della distribuzione attorno al valore medio.
Errori di misura La teoria degli errori si occupa di determinare l’errore che si commette quando si approssima un numero c con un valore a che gli si avvicina. L’approssimazione, che può essere per difetto, se a < c,o per eccesso, se a > c, si effettua per esempio quando si arrotonda a una certa cifra un numero irrazionale, oppure quando il valore da utilizzare deriva da una misurazione che, a seconda della precisione degli strumenti utilizzati o dalla correttezza delle operazioni di misurazione, fornisce un valore prossimo, ma non coincidente, con il reale valore della grandezza. Ci occuperemo di quest’ ultimo tipo di approssimazione, considerando cioè gli errori di misura. Tali errori vanno valutati quando in una misurazione è richiesta una certa precisione,quindi quando è opportuno effettuare più misurazioni di una stessa grandezza, che spesso non danno il medesimo risultato. Ciò può riguardare la valutazione di una lunghezza, di un peso, di un voltaggio, eccetera.
Errori di misura Supponendo di poter eliminare gli errori derivati dall’imprecisione degli strumenti, consideriamo solo gli errori casuali, che dipendono dall’accuratezza della misurazione. Definiamo innanzi tutto l’errore assoluto. Nella misurazione di una grandezza l’errore assoluto ea è il valore assoluto della differenza fra il valore xi ottenuto dalla misurazione e il valore esatto c, cioè ea = |xi – c|
Errori di misura Indichiamo con xi il valore ottenuto dalle misurazioni perché supponiamo di effettuare più misurazioni e di ottenere quindi più valori di ea. Per determinare i valori precisi di ea si può solo effettuare una stima di ea. Da n misurazioni si ottengono n valori x1,x2,…,xn, dei quali è possibile calcolare la media M= Tale valore M viene considerato come valore esatto c,quindi gli scarti in valore assoluto |x1- M|, |x2 – M|,.....,|xn – M| corrispondono ai valori degli errori assoluti ea.
Errori di misura Se consideriamo la distribuzione degli errori assoluti casuali,possiamo verificare che essa segue un andamento di tipo gaussiano, quindi la sua funzione di densità è F(x)= con e
Errori di misura Ponendo z = si ottiene la funzione di densità della distribuzione normale standardizzata f(z) = avente M=0 e E’ possibile determinare la probabilità che l’errore casuale sia contenuto in un certo intervallo.
Esempio Dopo aver utilizzato un certo numero di misurazioni di una grandezza, si è calcolato che M=180,6 e =1,2. Determinare la probabilità che l’errore assoluto sia: minore di 1 minore di 2 a)Abbiamo Per poter utilizzare la tavola della curva normale standardizzata dobbiamo determinare i valori di z z1= e z2=
Esempio quindi risulta p I valori di z si possono anche determinare ponendo z1 = - e z2 = + Per la simmetria della funzione e utilizzando la tavola di Excell, arrotondando il valore alla seconda cifra decimale possiamo scrivere p Otteniamo quindi una probabilità superiore al 50% che l’errore assoluto sia minore di 1. b) Analogamente abbiamo Trasformiamo nella normale standardizzata z1= e z2= quindi,arrotondando alla seconda cifra decimale il valore di z, p La probabilità che l’errore assoluto sia minore di 2 è 0,905.
GRAFICI CALCOLO DELLA DISTRIBUZIONE NORMALE (O GAUSSIANA) E DELLA SUA FUNZIONE DI RIPARTIZIONE FISSANDO MEDIA (M) E LA DEVIAZIONE STANDARD (σ) M=10 σ=5
GRAFICI M=0 σ=5 M=-10 σ=5