Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoGilberta Grasso Modificato 8 anni fa
1
Elementi di statistica descrittiva Prof.ssa Nadia Andreuzzi
La statistica Elementi di statistica descrittiva Prof.ssa Nadia Andreuzzi
2
Sai ched'è la statistica
Sai ched'è la statistica? È na' cosa che serve pe fà un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che se spósa. Ma pè me la statistica curiosa è dove c'entra la percentuale, pè via che, lì,la media è sempre eguale puro co' la persona bisognosa. Me spiego: da li conti che se fanno seconno le statistiche d'adesso risurta che te tocca un pollo all'anno: e, se nun entra nelle spese tue, t'entra ne la statistica lo stesso perch'è c'è un antro che ne magna due Trilussa
3
STATISTICA Si definisce statistica la scienza cha ha per oggetto la raccolta, l’analisi e la descrizione di fenomeni collettivi. In generale si distingue tra: Statistica descrittiva Statistica induttiva o inferenza statistica
4
La statistica descrittiva ha lo scopo di raccogliere ed elaborare dati per descrivere fenomeni collettivi o di massa La statistica induttiva si occupa di stimare le caratteristiche di un fenomeno collettivo a partire dall’analisi delle caratteristiche di un campione.
5
Unità statistiche Definiamo unità statistica il più piccolo elemento su cui si operano le rilevazioni. A sua volta l’unità statistica può essere suddivisa in : Unità statistica semplice se corrisponde ad un solo elemento (persone, automobili etc.) Unità statistica composta se corrisponde ad un insieme di elementi (famiglie, categorie sociali etc.)
6
DATI E POPOLAZIONE Definiamo dato statistico il dato ottenuto da una rilevazione operata sulle unità statistiche. All’insieme sul quale viene svolta l’indagine si dà il nome di popolazione statistica . La popolazione statistica può essere un Universo statistico se costituita da tutti gli elementi oggetto di rilevazione Campione statistico se costituita da un certo numero di elementi estratti dalla popolazione.
7
Caratteri L’indagine statistica si indirizza su una o più caratteristiche comuni di una popolazione. Tali caratteristiche prendono il nome di caratteri statistici. Gli aspetti secondo i quali i caratteri si manifestano si chiamano modalità. Esse possono essere: Qualitative se sono espresse da attributi (colore dei capelli, marche etc.) Quantitative se sono espresse da numeri (altezze, reddito, pesi etc.)
8
FASI DELL’INDAGINE STATISTICA
Pianificazione Raccolta dei dati Spoglio Rappresentazione Elaborazione Interpretazione
9
Sistemazione dei dati Tabella a semplice entrata:
È costituita da due colonne: nella prima sono riportate le modalità del carattere qualitativo o le varie intensità del carattere quantitativo. Nella seconda colonna sono riportate le frequenze (ossia il numero di unità statistiche che possiedono quella modalità del carattere). Per esempio è una tabella a semplice entrata la seguente:
10
Indagine sul tipo di lettura preferita dagli alunni del Liceo Touschek”
N.di giovani Narrativa 300 Fantascienza 175 Giallo 200 Storica 150 Scientifica totale 1000
11
Tabelle a doppia entrata:
Le unità statistiche vengono classificate secondo due caratteri. Sulle righe si riportano le modalità di un carattere e sulle colonne le modalità dell’altro carattere. Nell’ultima colonna e nell’ultima riga si riportano i totali. Vediamo un esempio…..
12
Distribuzione di 100 abitazioni secondo il numero di vani e i componenti della famiglia
N. vani Componenti famiglia Totali 1 2 3 4 5 6 10 15 23 12 8 36 20 totali 28 100
13
Frequenza assoluta, relativa e percentuale
Frequenza assoluta è il numero di individui il cui carattere assume una determinata modalità Frequenza relativa è il rapporto tra la frequenza assoluta e la totalità della popolazione statistica su cui si sta svolgendo l’indagine. Pertanto è un numero positivo minore o uguale a uno. Frequenza percentuale è semplicemente la frequenza relativa moltiplicata per cento. Pertanto è un numero positivo minore o uguale a cento.
14
Indagine sul tipo di lettura preferita dagli alunni Liceo Touschek”
Freq. Assolute Freq. relative Percentuali Narrativa 300 0,3 30% Fantascienza 175 0,175 17,5% Giallo 200 0,2 20% Storica 150 0,15 15% Scientifica totale 1000 1 100%
15
Rappresentazione grafica di un’indagine statistica
Diagrammi cartesiani: si usano per rappresentare caratteri quantitativi:in ascissa si riportano i valori del carattere ed in ordinate le frequenze.
16
Istogrammi Si usano soprattutto nel caso di caratteri divisi in classi. L’asse del carattere viene suddiviso in intervalli adiacenti e su ogni intervallo si disegna un rettangolo la cui area è proporzionale alla frequenza assoluta o relativa. N.B. Con i dati divisi per classi la costruzione dell’istogramma deve tener conto anche dell’ampiezza della classe. Nell’esempio i rettangoli hanno tutti la stessa base e quindi sono le altezze ad essere proporzionali alle frequenze.
17
Diagrammi a torta Diagrammi a torta (o a settori circolari):
si divide un cerchio in settori ciascuno dei quali ha un’area (ovvero l’angolo al centro) proporzionale alla frequenza corrispondente.
18
I valori di sintesi Spesso è utile descrivere una distribuzione di dati statistici mediante pochi valori sintetici che possono consentire di: Confrontare analisi effettuate in tempi e luoghi diversi Farci un’idea della variabilità dei dati. Per quanto riguarda il primo punto distinguiamo tra: Medie di calcolo : sono quelle che dipendono da tutti i valori della distribuzione e si ottengono mediante una formula (con la condizione di lasciare invariato un risultato operato sui dati) Medie di posizione: si ottengono considerando solo alcuni valori della distribuzione.
19
Media aritmetica semplice e ponderata
La media aritmetica è quel valore che sostituito ai dati lascia invariata la loro somma. Se i dati sono singoli si parla di media aritmetica semplice:
20
Esempio Se i tuoi voti sono: 5,7,8,3,5,6,7,7,7,5 Allora n=10
21
media aritmetica ponderata:
Se ad ogni valore è associata una frequenza allora si parla di : media aritmetica ponderata: Dove pi sono le frequenze associate al dato i-mo
22
Esempio di calcolo di una media aritmetica ponderata:
Dato Frequenza Dato x freq. X p Xp 3 2 6 4 16 5 25 7 21 8 40 10 1 totali 20 118 M=118/20= 5,9
23
Calcolo di una media aritmetica con dati divisi per classi
Classe Valore Frequenza Dato x freq. da a centrale p Xp 5 2,5 2 10 7,5 4 30 15 12,5 62,5 20 17,5 3 52,5 25 125 50 40 1 totali 315 M=315/20= 15,75
24
Medie di posizione Mediana.
Se i dati sono ordinati in senso non decrescente la mediana è il valore centrale ossia il valore che supera la prima metà dei valori ed è superato dall’altra metà. Moda E’ il valore al quale corrisponde la frequenza più alta. ….non ci addentriamo oltre nel calcolo delle medie di posizione
25
Indici di variabilità I valori medi non sono sufficienti a darci un’idea della distribuzione dei dati attorno al valore medio. Distribuzioni diverse possono avere la stessa media ma dati molto diversi tra di loro e diversi dal valore medio. Per quantificare la variabilità di una distribuzione si utilizzano alcuni indici di variabilità. Ne vedremo solo alcuni….
26
Intervallo di variazione
Non è altro che la differenza tra il valore massimo ed il valore minimo della distribuzione. Per esempio nella tabella riportata a lato l’intervallo di variazione è pari a (10-3)=7 Dato X 3 4 5 7 8 10
27
Varianza a scarto quadratico medio
Se definiamo scarto di un valore dalla media aritmetica la differenza di quel valore dalla media stessa, allora La Varianza è il valore medio degli scarti al quadrato Lo Scarto quadratico medio è la radice quadrata della varianza ….Vedremo nelle prossime diapositive due esempi di calcolo della varianza e dello s.q.m.
28
Calcolo della varianza e dello scarto quadratico medio nel caso di dati singoli
Voti Scarti Scarti ^2 5 -1 1 7 8 2 4 3 -3 9 -2 6 somma 42 28 media=42/7= Varianza=28/7= S.q.m.= radq(4)=
29
Calcolo della varianza e dello scarto quadratico medio nel caso di dati con frequenze diverse
Dato Frequenza Dato x freq. Scarti Scarti x p Scarti^2 Scarti^2 x p X p Xp v vp v^2 v^2p 3 2 6 -2,9 -5,8 8,41 16,82 4 16 -1,9 -7,6 3,61 14,44 5 25 -0,9 -4,5 0,81 4,05 7 21 1,1 3,3 1,21 3,63 8 40 2,1 10,5 4,41 22,05 10 1 4,1 16,81 totali 20 118 1,6 35,26 77,80 M=118/20= 5.9 Varianza = 77.80/20= 3.89 S.q.m.= radq(3.89)=1.97
30
Correlazione tra variabili Esiste correlazione tra le variabili?
Finora abbiamo considerato una variabile alla volta, ora tratteremo analisi di tipo comparativo: Osservo una variabile su più gruppi di individui Osservo più variabili su un gruppo di individui Entrambe le situazioni a. e b. Esiste correlazione tra le variabili? Scatterplot, diagramma a dispersione
31
Indici di variazione bidimensionali
Date n osservazioni congiunte di 2 variabili Covarianza campionaria Se cx,y>0 a valori grandi (piccoli) di x corrispondono valori grandi (piccoli) di y x e y sono direttamente correlate Se cx,y<0 a valori grandi (piccoli) di x corrispondono valori piccoli (grandi) di y x e y sono inversamente correlate Se cx,y=0 le variabili non sono correlate
32
Indici di variazione bidimensionali
Indice di correlazione Date n osservazioni congiunte di 2 variabili In particolare, dove il segno di r =segno di a
33
Diagramma di dispersione e indice di correlazione
y x r = 0.6 y x y r = -0.8 y x r = -1 x r = 0 x v y r = 0 y x
34
Regressione lineare: retta di regressione
Si vuole cercare la relazione lineare tra due variabili x e y. Date n osservazioni congiunte di 2 variabili cerco due coefficienti a e b tali che y=ax+b passi il più possibile vicino a questi punti. Cerco a e b tali che sia minima (Metodo dei minimi quadrati)
35
Retta di regressione N.B. Il coefficiente angolare della retta ha il segno di cx,y Utilizzando le informazioni ottenute tramite lo scatterplot e il coefficiente di correlazione, parto dal presupposto che ci sia relazione lineare tra x e y Valori stimati: Residui: Utilizzando la retta di regressione posso fare delle previsioni
36
EXCEL: Retta di regressione
Esercizio: Stabilire se c’e’ dipendenza lineare tra l’umidita’ del magazzino e l’evaporazione di un certo componente chimico. Step1: Scatterplot Step2: Coefficiente di correlazione Utilizzando la funzione =CORRELAZIONE(dati_1;dati_2) ottengo r = Ha senso determinare la retta di regressione
37
EXCEL: Retta di regressione
Step3: Retta di regressione Avendo gia’ lo scatterplot seleziono: Grafico-Aggiungi linea di tendenza y = -0,0801x + 13,639
38
Buon lavoro da parte della vostra prof. !!!
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.