La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Dott. Massimiliano Giacalone

Presentazioni simili


Presentazione sul tema: "Dott. Massimiliano Giacalone"— Transcript della presentazione:

1 Dott. Massimiliano Giacalone
Campus di Arcavacata Università della Calabria Corso di statistica Dott. Massimiliano Giacalone ARCAVACATA a.a

2 INDIRIZZO

3 Statistica Insieme di metodi finalizzati allo studio (mediante l’analisi) di fenomeni reali Metodologia strumentale per l’analisi della realtà allo scopo di trarre leggi e regole generali per obiettivi predefiniti (Scienza o metodo?) Scienza delle decisioni in condizioni di incertezza …… in altre parole “La statistica riguarda tutte le “operazioni” che rientrano in un processo di indagine finalizzato all’accrescimento della conoscenza “. Perché l’indagine statistica?

4 Metodi statistici obiettivi informazioni risultati

5 Indagine Statistica Fasi Definizione degli obiettivi (generali, parziali) in funzione dei vincoli (di tempo, di costo) Raccolta (Rilevazione) dei dati Dati derivanti da misurazioni, da questionario, da basi di dati Rilevazioni semplici o complesse

6 Descrittiva/Inferenziale, Univariata/Multivariata
Elaborazione dei dati Memorizzazione Codifica/Ricodifica Analisi statistica Descrittiva/Inferenziale, Univariata/Multivariata Presentazione dei risultati Riformulazione delle ipotesi di ricerca / Ridefinizione degli obiettivi

7 TERMINOLOGIA Rilevazioni statistiche Complesso delle operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi (caratteri) oggetto di studio. Caratteristiche: - semplici/complesse - derivanti da risposte o da misure - globali (censimenti) / parziali (rilevazioni campionarie) Unità statistica: entità su cui viene condotta la rilevazione statistica Popolazione: insieme di tutte le unità statistiche facenti parte di un collettivo di riferimento Campione: sottoinsieme della popolazione

8 I Caratteri Statistici
Insieme di fenomeni oggetto di studio riguardanti le caratteristiche che differenziano tra loro le unità statistiche L’espressione del carattere nelle unità statistiche si denomina modalità o intensità Tipologie Caratteri quantitativi (VARIABILI): assumono intensità rappresentate da numeri reali Variabili continue Variabili discrete Caratteri qualitativi (MUTABILI): assumono modalità rappresentate da attributi non numerici Nominali Ordinali Dicotomici Tutti i caratteri possono essere resi dicotomici

9 Tipi di caratteri ed operazioni possibili

10 Cosa si studia al corso di Statistica 1?
Statistica descrittiva: Distribuzioni di frequenza Rappresentazioni grafiche Indici di posizione, variabilità e forma Omogeneità ed eterogeneità Relazioni statistiche (connessione, indipendenza in media, correlazione) Statistica Inferenziale: Probabilità Variabili Casuali Modelli per variabili casuali

11 La matrice (50 unità statistiche, 9 caratteri)
Un campione di 50 aziende appartenenti alle imprese produttrici di beni di largo consumo. Rif.: M. Caputo (a cura di) Organizzare la logistica per l’Efficient Consumer Response, CEDAM, 1998

12

13

14

15 Sono stati riportati i settori merceologici elencati nella prima colonna della matrice dei dati sostituendo l’abbreviazione alla dicitura per esteso.

16 In simboli: Carattere osservato Numero di unità statistiche
Numero di modalità/intensità di X i-esima modalità/intensità di X Frequenza assoluta della i-esima modalità xi Frequenza relativa della i-esima modalità xi

17 Distribuzione di frequenza
II )

18 Carattere qualitativo nominale: Rappresentazioni grafiche
Diagramma a barre N.B. E’ possibile costruire il diagramma a barre riportando in ordinata le frequenze assolute OPPURE le frequenze relative, la forma della rappresentazione risulta invariata.

19 Carattere qualitativo nominale: Rappresentazioni grafiche
Grafico a torta

20 Frequenza relativa cumulata: somma delle frequenze relative fino alla i-esima intensità. Si può calcolare per ogni tipo di distribuzione di frequenza. N.B. Valgono tutte le altre proprietà viste per le distribuzioni di frequenza dei caratteri qualitativi

21 Rappresentazioni grafiche del carattere “Numero di stabilimenti”

22 Suddivisione in classi

23 Carattere “N. di stabilimenti”: suddivisione delle intensità in 5 classi equiampie

24 Carattere “N. di stabilimenti”: costruzione della distribuzione in classi
N.B. Valgono tutte le altre proprietà viste per le distribuzioni di frequenza dei caratteri qualitativi e quantitativi discreti

25 Carattere “N. di stabilimenti”: suddivisione delle intensità in 5 classi di diversa ampiezza e frequenza

26

27 Distribuzioni di frequenza per caratteri quantitativi continui

28 Carattere quantitativo continuo
FATTURATO

29 Carattere “Fatturato”: Classi equifrequenti

30 Carattere “Fatturato”: Classi equiampie

31 Carattere “N.ro di stabilimenti”: Classi equiampie

32 Rappresentazioni grafiche
1. Variabili qualitative Diagramma a barre Diagramma a torta Variabili nominali o ordinali Frequenze assolute o relative 2. Variabili quantitative discrete Diagramma a bastoni Diagramma a torta Frequenze assolute o relative

33 area del imo rettangolo = frequenza della ima classe
3. Variabili quantitative continue 3.1 Istogramma rettangoli = classi base = ampiezza della classe di altezza = densità di frequenza hi area del imo rettangolo = frequenza della ima classe area totale A = n

34 Esempio 1: variabile X suddivisa in 2 classi di diverse ampiezza e frequenza xi-1 - xi ni 40 20 Istogramma delle frequenze assolute Apparentemente sembrerebbe che le unità statistiche sono più concentrate nella prima classe, ma in realtà dovremmo tener presente che è vero che la frequenza nella prima classe è doppia rispetto alla frequenza nella seconda, ma è pur vero che la prima classe ha anche un’ampiezza doppia rispetto alla seconda.

35 Istogramma delle densità di frequenza (normalizzato)
Rappresentando la densità di frequenza, invece, risulta evidente che le due classi sono perfettamente omogenee relativamente al modo in cui le unità statistiche si distribuiscono tra di esse.

36 area del rettangolo = frequenza relativa della classe
Istogramma normalizzato in cui la densità di frequenza è calcolata sulle frequenze relative base = ampiezza della classe di altezza = densità di frequenza hi area del rettangolo = frequenza relativa della classe area totale A = 1

37 Dati: 30 consumatori di succhi di frutta
ID. cliente scelta n. bot-tiglie prezzo CH prezzo MM sconto CH sconto MM fedele CH fedele MM Negozio 1 CH 2 1,86 2,13 0,470 0,540 0,933 0,067 Coloniali 5 1,99 2,09 0,100 0,400 0,600 Bar 3 0,200 0,820 0,180 4 0,978 0,022 0,795 0,205 S.market 6 0,384 0,616 7 0,986 0,014 8 0,993 0,007 9 0,994 0,006 10 1,000 0,000 11 12 0,520 0,480 13 MM 0,342 0,658 14 15 1,75 0,160 0,300 0,351 0,649 D. Autom. 16 0,500 17 18 1,69 0,320 0,680 19 0,314 0,686 20 0,131 0,869 21 0,248 0,752 22 0,220 0,780 23 0,533 0,467 24 0,670 0,330 25 0,629 0,371 26 0,450 0,550 27 0,913 0,087 28 29 0,803 0,197 30 0,895 0,105

38 Carattere Descrizione scelta marca prescelta n. bottiglie numero di bottiglie acquistate prezzo CH prezzo della marca CH prezzo MM prezzo della marca MM sconto CH sconto per il prodotto CH sconto MM sconto per il prodotto MM fedele MM indicatore di fedeltà per il prodotto MM fedele CH indicatore di fedeltà per il prodotto CH negozio rivenditore del prodotto

39 Esempio 2 Carattere: “fedele CH”
Distribuzione di frequenza di 5 classi equiampie n = 30 Fedele CH ni fi Fi 0 |—| 0,2 2 0,06 0,3 0,2 —| 0,4 9 0,30 0,36 1,5 0,4 —| 0,6 5 0,17 0,53 0,85 0,6 —| 0,8 3 0,10 0,63 0,5 0,8 —| 1 11 0,37 1 1,85 Totale 30

40 Istogramma delle frequenze relative
0,2 0,4 0,6 0,8 1 Istogramma delle densità di frequenza 0,2 0,4 0,6 0,8 1 In questo caso le due rappresentazioni sono ugualmente valide, ma solo in quanto le classi hanno la stessa ampiezza

41 Esempio 3 Carattere: “fedele CH”
Distribuzione di frequenza di 5 classi equifrequenti n = 30 ni = 30 : 5 = 6 Fedele CH di ni fi Fi 0 |—| 0,32 0,32 6 0,2 0,625 0,32 —| 0,45 0,13 0,4 1,538 0,45 —| 0,67 0,22 0,6 0,909 0,67 —| 0,93 0,26 0,8 0,769 0,93 —| 1 0,07 1 2,857 Totale 30

42 Istogramma delle frequenze assolute
Istogramma delle densità di frequenza In questo caso è evidente che il primo grafico non è adeguato a rappresentare la distribuzione di frequenza.

43 In sintesi l’istogramma:
considera l’intensità con cui le frequenze si addensano all’interno delle diverse classi è sensibile a cambiamenti dei criteri di raggruppamento delle intensità in classi permette di confrontare “graficamente” diverse distribuzioni

44 A. Classi equifrequenti
Esempio 4: Confronto grafico tra diversi criteri di raggruppamento delle classi Carattere “Fatturato” A. Classi equifrequenti

45 d n f = h B. Classi equiampie
Come cambia la distribuzione se consideriamo 5 classi equiampie? Classi i d n f = h F 103,0 | -- | 484,8 381,8 0,82 0,00215 484,8 | 866,6 0,10 0,00026 0,92 866,6 | 1.248, 4 0,04 0,00010 0,96 1248,4 | 1.630,2 0,02 0,00005 0,98 1630,2 | 2.012,0 1,00 Totale 500 1000 1500 2000 0.0 0.0005 0.0010 0.0015 0.0020 Istogramma del fatturato (classi equiampie e densità di frequenza) classi di modalità Densità di frequenza

46 n h f = d C. Classi di diversa ampiezza e frequenza
La gran parte delle aziende incluse nel campione ha un fatturato compreso tra 100 e 500 milioni (I classe). Domanda : La distribuzione del fatturato delle aziende appartenenti alla prima classe di fatturato può considerarsi uniforme? Risposta : consideriamo la seguente distribuzione in classi: 100| -- |200, 200 |300, 300 |400, 400 |500, 500 |2.100 Classi i d n f = h F 100 | -- | 200 100 0,50 0,0050 200 | 300 0,10 0,0010 0,60 300 | 400 0,14 0,0014 0,74 400 | 500 0,84 500 | 2.100 1.600 0,16 0,0001 1,00 Totale

47 Confronto grafico: quale suddivisione in classi approssima meglio i dati originari?

48 Come si evince dall’istogramma, la densità di
500 1000 1500 2000 0.0 0.001 0.002 0.003 0.004 0.005 Istogramma del fatturato (classi di diversa ampiezza e frequenza e densità di frequenza) classi di modalità Densità di frequenza Come si evince dall’istogramma, la densità di frequenza è più elevata in corrispondenza della prima classe (da 100 a 200 miliardi), per cui la distribuzione del fatturato delle aziende appartenenti alla prima classe di fatturato (100 – 500) relativa al caso delle classi equifrequenti NON può considerarsi uniforme.

49 3.2 Funzione di ripartizione empirica

50 Rappresentazione grafica
Carattere “Fatturato” Classi equiampie

51 Confronto tra i diversi criteri di raggruppamento

52 LE RELAZIONI STATISTICHE
Riguardano lo studio delle relazioni tra due o più caratteri statistici. Due o più caratteri vengono analizzati simultaneamente al fine di evidenziare i legami intercorrenti tra di essi. Nel caso delle relazioni tra due caratteri, l’oggetto dello studio è la distribuzione doppia (o bivariata) rappresentabile in una tabella a doppia entrata.

53 LA DISTRIBUZIONE DOPPIA frequenza marginale di riga
carattere in colonna carattere in riga j-ma modalità (intensità) di Y i-ma modalità (intensità) di X frequenza congiunta di xi ed yj frequenza marginale di colonna

54 LA DISTRIBUZIONE DOPPIA Caratteristiche principali
Se dividiamo ogni cella per n otteniamo la tabella doppia per frequenze relative Valgono per estensione tutte le proprietà viste per le distribuzioni semplici

55 LA DISTRIBUZIONE DOPPIA Frequenze relative

56 ESEMPIO A partire dalla successione delle intensità riguardanti i caratteri Fatturato (FATT) e Fatturato Estero (FATEST) si costruisca la distribuzione doppia di frequenze rappresentandola in una tabella a doppia entrata suddividendo le intensità dei due caratteri nei modi seguenti:

57

58 DISTRIBUZIONI MARGINALI DISTRIBUZIONI CONDIZIONATE DI X

59 DISTRIBUZIONI CONDIZIONATE DI Y

60 Misure di tendenza centrale
Sono misure sintetiche che posizionano la distribuzione di frequenza di un fenomeno e consentono il passaggio da una pluralità di informazioni ad un solo numero L’obiettivo è di consentire di effettuare confronti nel tempo, nello spazio o tra circostanze differenti Media Moda Quantili Mediana Quartili Decili Percentili

61 Moda La Moda (o “norma” o “valore normale”) di una distribuzione è rappresentata dal valore (qualitativo o numerico) che presenta la frequenza assoluta o relativa più elevata. Sintetizzare una distribuzione con la sua moda equivale ad assumere come valore “più rappresentativo” quello che si è verificato più spesso. L’uso della moda ha tanto più senso quanto più la sua frequenza si differenzia rispetto a quella delle altre modalità o intensità

62 Variabili quantitative discrete
Variabili nominali Carattere SCELTA SCELTA ni fi CH 21 0,7 MM 9 0,3 Totale 30 1 Mo = CH Variabili quantitative discrete Carattere NUMERO DI BOTTIGLIE N. bottiglie n­i fi 1 3 0,10 2 4 0,13 5 0,17 11 0,37 6 Totale 30 Mo = 5

63 Distribuzioni in classi
Classi equiampie: la classe modale è la classe a cui corrisponde la frequenza più elevata Classi equifrequenti o di diversa ampiezza e frequenza: la classe modale è la classe a cui corrisponde la densità di frequenza più elevata Carattere PREZZO CH, classi equiampie (primi 20 consumatori) Classe ni fi Fi 1,69 |—| 1,77 3 0,15 1,875 1,77 —| 1,85 1,85 —| 1,93 0,30 1,93 —| 2,01 5 0,25 0,55 3,125 2,01 —| 2,09 9 0,45 1 5,625 Totale 20 Mo = classe modale = 2,01 --| 2,09

64 Istogramma normalizzato
Funzione di ripartizione empirica

65 Carattere Fatturato, classi equifrequenti
Classe modale = 103 |--| 129

66 Distribuzioni bimodali o plurimodali
Carattere NEGOZIO Negozio n­i fi Bar 9 0,30 Coloniali D. automatico 4 0,13 Supermarket 8 0,27 Totale 30 1 Il carattere presenta due modalità con la massima frequenza, dunque le due mode sono: Mo1 = Bar Mo2 = Coloniali Distribuzione zeromodale X ni fi x1 20 0,5 x2 Totale 40 1 Mo = ???

67 I QUANTILI Valori che bipartiscono la distribuzione delle intensità/modalità in due gruppi disgiunti. Mediana Quartili Decili Percentili N:B. Quando si calcolano i quantili è sempre neces-sario ordinare le intensi-tà/modalità in senso non decrescente Quantili MEDIANA Valore che bipartisce la distribuzione ordinata delle intensità/modalità x(1),……,x(n) in due gruppi della stessa numerosità Intensità/modalità dell’unità statistica che occupa il posto centrale nella distribuzione ordinata x(1),……,x(n) Intensità/modalità in corrispondenza della quale la funzione di ripartizione è pari a 0,5 (FME = 0,5) E’ quel valore Me tale che tra il minimo x(1) ed Me vi sono n/2 intensità/modalità (II Quartile Q2 )

68 Caratteri quantitativi discreti
intensità che occupa la i-esima posizione nella successione ordinata delle intensità (i=1,….,n) N.B. Se n è pari, la mediana può non corrispondere a nessuna delle intensità osservate. Caratteri qualitativi ordinali Si individuano le 2 modalità: x(Me-1) tale che F(x(Me-1) )<0,5 x(Me) tale che F(x(Me))  0,5 Me x(Me) , perché tra le ni unità che possiedono modalità xMe sarà certamente compresa quella (se n è dispari) o quelle (se n è pari) di posto centrale.

69 Carattere NUMERO DI BOTTIGLIE
n = 30 Essendo n pari la mediana è ottenuta come: Eliminando l’ultima osservazione: n = 29 Essendo n dispari:

70 Caratteri quantitativi continui
Classe mediana : classe in corrispondenza della quale la funzione di ripartizione empirica passa (anche idealmente) per il punto 0,5. estremo inferiore della classe mediana estremo superiore della classe mediana Valore della Funzione di ripartizione in corrispondenza della classe mediana Valore della Funzione di ripartizione in corrispondenza della classe che precede la classe mediana

71 N.B. L’area tratteggiata è pari a 0,5

72 CMe = Ci : Fi = min (Fi > 0,5)
ni fi Fi [5,27; 15,43] 13 0,43 ]15,43; 25,59] 7 0,23 0,66 ]25,59; 35,76] 5 0,17 0,83 ]35,76; 45,92] 1 0,03 0,87 ]45,92; 56,08] 2 0,07 0,93 ]56,08; 66,24] 1,00 Totale 30 1. Individuazione della classe mediana CMe = Ci : Fi = min (Fi > 0,5) ] 15,43; 25,59 ] 2. Stima della mediana all’interno della classe

73 QUARTILI Primo Quartile: E’ quel valore Q1 tale che tra il minimo x(1) e Q1 vi sono n/4 intensità. Caratteri qualitativi ordinali Si individuano le 2 modalità: x(Q1-1) tale che F(x(Q1 -1) )<0,25 x(Q1) tale che F(x(Q1))  0,25 Q1 x(Q1) , perché tra le ni unità che possiedono modalità xQ1 sarà certamente compresa quella (se n/4 è intero) o quelle (se n/4 non è intero) di posto n/4.

74 Terzo Quartile: E’ quel valore Q3 tale che tra il minimo x(1) e Q3 vi sono 3n/4 intensità.
Caratteri qualitativi ordinali Si individuano le 2 modalità: x(Q3-1) tale che F(x(Q3 -1) )<0,75 x(Q3) tale che F(x(Q3) )  0,75 Q3 x(Q3) , perché tra le ni unità che possiedono modalità xQ3 sarà certamente compresa quella (se n/4 è intero) o quelle (se n/4 non è intero) di posto 3n/4.

75 n = 30 Calcolo dei quartili per una distribuzione semplice
Carattere NUMERO DI BOTTIGLIE n = 30 Considerando le due semi-distribuzioni, ciascuna di numerosità n’:

76 Caratteri quantitativi continui
DECILI q-mo Decile: E’ quel valore Dq tale che tra il minimo x(1) e Dq vi sono (q·n)/10 intensità. Per una distribuzione si possono calcolare fino a 9 Decili PERCENTILI q-mo Percentile: E’ quel valore Pq tale che tra il minimo x(1) e Pq vi sono (q·n)/100 intensità. Per una distribuzione si possono calcolare fino a 99 Percentili Per il calcolo dei Decili e dei Percentili si utilizzano le stesse formule (adattate allo specifico indice) utilizzate per il calcolo della Mediana.

77 CQ1 = Ci : Fi = min (Fi > 0,25) = C1
I quartili di una distribuzione in classi saranno determinati in base alla formula per il generico quantile xpx: in cui, individuata la classe di riferimento, si sostituirà ad Fdesiderata il valore 0,25 per Q1, 0,5 per Q2 (Me) e 0,75 per Q3. CQ1 = Ci : Fi = min (Fi > 0,25) = C1 CQ3 = Ci : Fi = min (Fi > 0,25) = C3


Scaricare ppt "Dott. Massimiliano Giacalone"

Presentazioni simili


Annunci Google