La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Corso di statistica ARCAVACATA a.a 2009-2010 Campus di Arcavacata Università della Calabria.

Presentazioni simili


Presentazione sul tema: "1 Corso di statistica ARCAVACATA a.a 2009-2010 Campus di Arcavacata Università della Calabria."— Transcript della presentazione:

1 1 Corso di statistica ARCAVACATA a.a Campus di Arcavacata Università della Calabria

2 INDIRIZZO

3 3 Statistica a)Insieme di metodi finalizzati allo studio (mediante lanalisi) di fenomeni reali b)Metodologia strumentale per lanalisi della realtà allo scopo di trarre leggi e regole generali per obiettivi predefiniti (Scienza o metodo?) c)Scienza delle decisioni in condizioni di incertezza …… in altre parole La statistica riguarda tutte le operazioni che rientrano in un processo di indagine finalizzato allaccrescimento della conoscenza. Perché lindagine statistica?

4 4 obiettivi informazioni Metodi statistici risultati

5 5 Indagine Statistica Fasi 1.Definizione degli obiettivi (generali, parziali) in funzione dei vincoli (di tempo, di costo) 2.Raccolta (Rilevazione) dei dati a)Dati derivanti da misurazioni, da questionario, da basi di dati b)Rilevazioni semplici o complesse

6 6 Elaborazione dei dati Memorizzazione Codifica/Ricodifica Analisi statistica Descrittiva/Inferenziale, Univariata/Multivariata Presentazione dei risultati Riformulazione delle ipotesi di ricerca / Ridefinizione degli obiettivi

7 7 TERMINOLOGIA Rilevazioni statistiche Complesso delle operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi (caratteri) oggetto di studio. Caratteristiche: - semplici/complesse - derivanti da risposte o da misure - globali (censimenti) / parziali (rilevazioni campionarie) Unità statistica: entità su cui viene condotta la rilevazione statistica Popolazione: insieme di tutte le unità statistiche facenti parte di un collettivo di riferimento Campione: sottoinsieme della popolazione

8 8 I Caratteri Statistici Insieme di fenomeni oggetto di studio riguardanti le caratteristiche che differenziano tra loro le unità statistiche Lespressione del carattere nelle unità statistiche si denomina modalità o intensità Tipologie a)Caratteri quantitativi (VARIABILI): assumono intensità rappresentate da numeri reali Variabili continue Variabili discrete b)Caratteri qualitativi (MUTABILI): assumono modalità rappresentate da attributi non numerici Nominali Ordinali Dicotomici Tutti i caratteri possono essere resi dicotomici

9 9 Tipi di caratteri ed operazioni possibili

10 10 Cosa si studia al corso di Statistica 1? I.Statistica descrittiva: Distribuzioni di frequenza Rappresentazioni grafiche Indici di posizione, variabilità e forma Omogeneità ed eterogeneità Relazioni statistiche (connessione, indipendenza in media, correlazione) II.Statistica Inferenziale: Probabilità Variabili Casuali Modelli per variabili casuali

11 11 La matrice (50 unità statistiche, 9 caratteri) Un campione di 50 aziende appartenenti alle imprese produttrici di beni di largo consumo. Rif.: M. Caputo (a cura di) Organizzare la logistica per lEfficient Consumer Response, CEDAM, 1998

12 12

13 13

14 14

15 15 Sono stati riportati i settori merceologici elencati nella prima colonna della matrice dei dati sostituendo labbreviazione alla dicitura per esteso.

16 16 In simboli: Carattere osservato Numero di unità statistiche Numero di modalità/intensità di X Frequenza assoluta della i-esima modalità xi Frequenza relativa della i-esima modalità xi i-esima modalità/intensità di X

17 17 Distribuzione di frequenza I ) II )

18 18 Carattere qualitativo nominale: Rappresentazioni grafiche Diagramma a barre N.B. E possibile costruire il diagramma a barre riportando in ordinata le frequenze assolute OPPURE le frequenze relative, la forma della rappresentazione risulta invariata.

19 19 Carattere qualitativo nominale: Rappresentazioni grafiche Grafico a torta

20 20 Frequenza relativa cumulata: somma delle frequenze relative fino alla i-esima intensità. Si può calcolare per ogni tipo di distribuzione di frequenza. N.B. Valgono tutte le altre proprietà viste per le distribuzioni di frequenza dei caratteri qualitativi

21 21 Rappresentazioni grafiche del carattere Numero di stabilimenti

22 22 Suddivisione in classi

23 23 Carattere N. di stabilimenti: suddivisione delle intensità in 5 classi equiampie

24 24 Carattere N. di stabilimenti: costruzione della distribuzione in classi N.B. Valgono tutte le altre proprietà viste per le distribuzioni di frequenza dei caratteri qualitativi e quantitativi discreti

25 25 Carattere N. di stabilimenti: suddivisione delle intensità in 5 classi di diversa ampiezza e frequenza

26 26

27 27 Distribuzioni di frequenza per caratteri quantitativi continui

28 28 Carattere quantitativo continuo FATTURATO

29 29 Carattere Fatturato: Classi equifrequenti

30 30 Carattere Fatturato: Classi equiampie

31 31 Carattere N.ro di stabilimenti: Classi equiampie

32 32 Rappresentazioni grafiche 1. Variabili qualitative 2. Variabili quantitative discrete Diagramma a barre Diagramma a torta Diagramma a bastoni Diagramma a torta Variabili nominali o ordinali Frequenze assolute o relative

33 33 3. Variabili quantitative continue 3.1 Istogramma rettangoli = classi base = ampiezza della classe d i altezza = densità di frequenza h i area del i mo rettangolo = frequenza della i ma classe area totale A = n

34 34 x i-1 - x i nini Esempio 1: variabile X suddivisa in 2 classi di diverse ampiezza e frequenza frequenze assolute Istogramma delle frequenze assolute Apparentemente sembrerebbe che le unità statistiche sono più concentrate nella prima classe, ma in realtà dovremmo tener presente che è vero che la frequenza nella prima classe è doppia rispetto alla frequenza nella seconda, ma è pur vero che la prima classe ha anche unampiezza doppia rispetto alla seconda.

35 35 densità di frequenza Istogramma delle densità di frequenza (normalizzato) Rappresentando la densità di frequenza, invece, risulta evidente che le due classi sono perfettamente omogenee relativamente al modo in cui le unità statistiche si distribuiscono tra di esse.

36 36 Istogramma normalizzato in cui la densità di frequenza è calcolata sulle frequenze relative base = ampiezza della classe d i altezza = densità di frequenza h i area del rettangolo = frequenza relativa della classe area totale A = 1

37 37 ID. clientescelta n. bot- tiglie prezzo CH prezzo MM sconto CH sconto MM fedele CH fedele MM Negozio CH21,862,130,4700,5400,9330,067Coloniali CH51,992,090,1000,400 0,600Bar CH52,09 0,2000,4000,8200,180Bar CH52,09 0,2000,4000,9780,022Bar CH42,09 0,2000,4000,7950,205S.market CH52,09 0,2000,4000,3840,616Bar CH61,992,090,1000,4000,9860,014Bar CH22,09 0,2000,4000,9930,007Bar CH42,09 0,2000,4000,9940,006Bar CH31,992,090,1000,4001,0000,000Bar CH52,09 0,2000,4001,0000,000Bar CH61,862,130,4700,5400,5200,480Coloniali MM52,09 0,2000,4000,3420,658S.market MM52,09 0,2000,4000,0001,000S.market MM21,751,990,1600,3000,3510,649D. Autom MM11,992,090,1000,4000,500 S.market CH31,992,090,1000,400 0,600S.market CH41,69 0,3000,2000,3200,680Coloniali CH51,862,130,4700,5400,3140,686Coloniali MM51,751,990,1600,3000,1310,869D. Autom MM21,751,990,1600,3000,2480,752D. Autom MM31,862,130,4700,5400,2200,780Coloniali CH62,09 0,2000,4000,5330,467S.market MM51,992,090,1000,4000,6700,330S.market CH41,862,130,4700,5400,6290,371Coloniali MM12,09 0,2000,4000,4500,550S.market CH51,862,130,4700,5400,9130,087Coloniali CH11,862,130,4700,5400,500 Coloniali CH41,862,130,4700,5400,8030,197Coloniali CH61,751,990,1600,3000,8950,105D. Autom. Dati: 30 consumatori di succhi di frutta

38 38 CarattereDescrizione sceltamarca prescelta n. bottiglienumero di bottiglie acquistate prezzo CHprezzo della marca CH prezzo MMprezzo della marca MM sconto CHsconto per il prodotto CH sconto MMsconto per il prodotto MM fedele MMindicatore di fedeltà per il prodotto MM fedele CHindicatore di fedeltà per il prodotto CH negoziorivenditore del prodotto

39 39 Carattere: fedele CH Distribuzione di frequenza di 5 classi equiampie n = 30 Fedele CHnini fifi FiFi 0 || 0,220,06 0,3 0,2 | 0,490,300,361,5 0,4 | 0,650,170,530,85 0,6 | 0,830,100,630,5 0,8 | 1110,3711,85 Totale301 Esempio 2

40 40 frequenze relative Istogramma delle frequenze relative densità di frequenza Istogramma delle densità di frequenza 00,20,40,60,81 In questo caso le due rappresentazioni sono ugualmente valide, ma solo in quanto le classi hanno la stessa ampiezza 0 0,20,40,60,81

41 41 Carattere: fedele CH Distribuzione di frequenza di 5 classi equifrequenti Fedele CHdidi nini fifi FiFi 0 || 0,320,32 60,2 0,625 0,32 | 0,450,13 60,20,41,538 0,45 | 0,670,22 60,20,60,909 0,67 | 0,930,26 60,20,80,769 0,93 | 10,07 60,212,857 Totale301 n = 30 n i = 30 : 5 = 6 Esempio 3

42 42 frequenze assolute Istogramma delle frequenze assolute densità di frequenza Istogramma delle densità di frequenza In questo caso è evidente che il primo grafico non è adeguato a rappresentare la distribuzione di frequenza.

43 43 In sintesi listogramma: considera lintensità con cui le frequenze si addensano allinterno delle diverse classi è sensibile a cambiamenti dei criteri di raggruppamento delle intensità in classi permette di confrontare graficamente diverse distribuzioni

44 44 A. Classi equifrequenti Esempio 4: Confronto grafico tra diversi criteri di raggruppamento delle classi Carattere Fatturato

45 45 B. Classi equiampie Come cambia la distribuzione se consideriamo 5 classi equiampie? Istogramma del fatturato (classi equiampie e densità di frequenza) classi di modalità Densità di frequenza

46 46 C. Classi di diversa ampiezza e frequenza La gran parte delle aziende incluse nel campione ha un fatturato compreso tra 100 e 500 milioni (I classe). Domanda: La distribuzione del fatturato delle aziende appartenenti alla prima classe di fatturato può considerarsi uniforme? Risposta: consideriamo la seguente distribuzione in classi: 100|--|200, |300,300|400, 400--|500, |

47 47 Confronto grafico: quale suddivisione in classi approssima meglio i dati originari?

48 Istogramma del fatturato (classi di diversa ampiezza e frequenza e densità di frequenza) classi di modalità Densità di frequenza Come si evince dallistogramma, la densità di frequenza è più elevata in corrispondenza della prima classe (da 100 a 200 miliardi), per cui la distribuzione del fatturato delle aziende appartenenti alla prima classe di fatturato (100 – 500) relativa al caso delle classi equifrequenti NON può considerarsi uniforme.

49 Funzione di ripartizione empirica

50 50 Rappresentazione grafica Carattere Fatturato Classi equiampie

51 51 Confronto tra i diversi criteri di raggruppamento

52 52 LE RELAZIONI STATISTICHE Riguardano lo studio delle relazioni tra due o più caratteri statistici. Due o più caratteri vengono analizzati simultaneamente al fine di evidenziare i legami intercorrenti tra di essi. Nel caso delle relazioni tra due caratteri, loggetto dello studio è la distribuzione doppia (o bivariata) rappresentabile in una tabella a doppia entrata.

53 53 LA DISTRIBUZIONE DOPPIA carattere in colonna carattere in riga j-ma modalità (intensità) di Y i-ma modalità (intensità) di X frequenza congiunta di x i ed y j frequenza marginale di colonna frequenza marginale di riga

54 54 Se dividiamo ogni cella per n otteniamo la tabella doppia per frequenze relative Valgono per estensione tutte le proprietà viste per le distribuzioni semplici LA DISTRIBUZIONE DOPPIA Caratteristiche principali

55 55 LA DISTRIBUZIONE DOPPIA Frequenze relative

56 56 ESEMPIO A partire dalla successione delle intensità riguardanti i caratteri Fatturato (FATT) e Fatturato Estero (FATEST) si costruisca la distribuzione doppia di frequenze rappresentandola in una tabella a doppia entrata suddividendo le intensità dei due caratteri nei modi seguenti:

57 57

58 58 DISTRIBUZIONI MARGINALI DISTRIBUZIONI CONDIZIONATE DI X

59 59 DISTRIBUZIONI CONDIZIONATE DI Y

60 60 Misure di tendenza centrale Sono misure sintetiche che posizionano la distribuzione di frequenza di un fenomeno e consentono il passaggio da una pluralità di informazioni ad un solo numero Lobiettivo è di consentire di effettuare confronti nel tempo, nello spazio o tra circostanze differenti Media Media Moda Moda Quantili Quantili Mediana Mediana Quartili Quartili Decili Decili Percentili Percentili

61 61 Moda Moda La Moda (o norma o valore normale) di una distribuzione è rappresentata dal valore (qualitativo o numerico) che presenta la frequenza assoluta o relativa più elevata. Sintetizzare una distribuzione con la sua moda equivale ad assumere come valore più rappresentativo quello che si è verificato più spesso. Luso della moda ha tanto più senso quanto più la sua frequenza si differenzia rispetto a quella delle altre modalità o intensità

62 62 Carattere NUMERO DI BOTTIGLIE N. bottiglien­ i fifi 130,10 240,13 330,10 450, ,37 640,13 Totale301 Mo = 5 Variabili quantitative discrete Carattere SCELTA SCELTAnini fifi CH210,7 MM90,3 Totale301 Mo = CH Variabili nominali

63 63 Classenini fifi FiFi 1,69 || 1,7730,15 1,875 1,77 | 1,85000,150 1,85 | 1,9330,150,301,875 1,93 | 2,0150,250,553,125 2,01 | 2,0990,4515,625 Totale201 Mo = classe modale = 2,01 --| 2,09 Distribuzioni in classi Classi equiampie: la classe modale è la classe a cui corrisponde la frequenza più elevata Classi equifrequenti o di diversa ampiezza e frequenza: la classe modale è la classe a cui corrisponde la densità di frequenza più elevata Carattere PREZZO CH, classi equiampie (primi 20 consumatori)

64 64 Istogramma normalizzato Funzione di ripartizione empirica

65 65 Carattere Fatturato, classi equifrequenti Classe modale = 103 |--| 129

66 66 Carattere NEGOZIO Negozion­ i fifi Bar90,30 Coloniali90,30 D. automatico40,13 Supermarket80,27 Totale301 Il carattere presenta due modalità con la massima frequenza, dunque le due mode sono: Mo 1 = Bar Mo 2 = Coloniali Distribuzioni bimodali o plurimodali Distribuzione zeromodale Xnini fifi x 1 200,5 x 2 200,5 Totale401 Mo = ???

67 67 I QUANTILI Valori che bipartiscono la distribuzione delle intensità/modalità in due gruppi disgiunti. MEDIANA I.Valore che bipartisce la distribuzione ordinata delle intensità/modalità x (1),……,x (n) in due gruppi della stessa numerosità II. Intensità/modalità dellunità statistica che occupa il posto centrale nella distribuzione ordinata x (1),……,x (n) III.Intensità/modalità in corrispondenza della quale la funzione di ripartizione è pari a 0,5 (F ME = 0,5) IV.E quel valore Me tale che tra il minimo x (1) ed Me vi sono n/2 intensità/modalità (II Quartile Q 2 ) Mediana Quartili Decili Percentili Quantili N:B. Quando si calcolano i quantili è sempre neces-sario ordinare le intensi-tà/modalità in senso non decrescente

68 68 Caratteri quantitativi discreti N.B. Se n è pari, la mediana può non corrispondere a nessuna delle intensità osservate. intensità che occupa la i-esima posizione nella successione ordinata delle intensità (i=1,….,n) Caratteri qualitativi ordinali Si individuano le 2 modalità: x (Me-1) tale che F(x (Me-1) )<0,5 x (Me) tale che F(x (Me) ) 0,5 Me x (Me), perché tra le n i unità che possiedono modalità x Me sarà certamente compresa quella (se n è dispari) o quelle (se n è pari) di posto centrale.

69 69 Carattere NUMERO DI BOTTIGLIE n = 30 n pari Essendo n pari la mediana è ottenuta come: Eliminando lultima osservazione: n = 29 n dispari Essendo n dispari:

70 70 Caratteri quantitativi continui Classe mediana : classe in corrispondenza della quale la funzione di ripartizione empirica passa (anche idealmente) per il punto 0,5. estremo inferiore della classe mediana estremo superiore della classe mediana Valore della Funzione di ripartizione in corrispondenza della classe mediana Valore della Funzione di ripartizione in corrispondenza della classe che precede la classe mediana

71 71 N.B. Larea tratteggiata è pari a 0,5

72 72 CiCi nini fifi FiFi [5,27; 15,43]130,43 ]15,43; 25,59]70,230,66 ]25,59; 35,76]50,170,83 ]35,76; 45,92]10,030,87 ]45,92; 56,08]20,070,93 ]56,08; 66,24]20,071,00 Totale301,00 1. Individuazione della classe mediana ] 15,43; 25,59 ] 2. Stima della mediana allinterno della classe C Me = C i : F i = min (F i > 0,5)

73 73 QUARTILI Primo Quartile: E quel valore Q 1 tale che tra il minimo x (1) e Q 1 vi sono n/4 intensità. Caratteri qualitativi ordinali Si individuano le 2 modalità: x (Q 1 -1) tale che F(x (Q 1 -1) )<0,25 x (Q 1 ) tale che F(x (Q 1 ) ) 0,25 Q 1 x (Q 1 ), perché tra le n i unità che possiedono modalità x Q 1 sarà certamente compresa quella (se n/4 è intero) o quelle (se n/4 non è intero) di posto n/4.

74 74 Terzo Quartile: E quel valore Q 3 tale che tra il minimo x (1) e Q 3 vi sono 3n/4 intensità. Caratteri qualitativi ordinali Si individuano le 2 modalità: x (Q 3 -1) tale che F(x (Q 3 -1) )<0,75 x (Q 3 ) tale che F(x (Q 3 ) ) 0,75 Q 3 x (Q 3 ), perché tra le n i unità che possiedono modalità x Q 3 sarà certamente compresa quella (se n/4 è intero) o quelle (se n/4 non è intero) di posto 3n/4.

75 75 Considerando le due semi-distribuzioni, ciascuna di numerosità n: Carattere NUMERO DI BOTTIGLIE n = 30 Calcolo dei quartili per una distribuzione semplice

76 76 Caratteri quantitativi continui DECILI q-mo Decile: E quel valore D q tale che tra il minimo x (1) e D q vi sono (q·n)/10 intensità. Per una distribuzione si possono calcolare fino a 9 Decili PERCENTILI q-mo Percentile: E quel valore P q tale che tra il minimo x (1) e P q vi sono (q·n)/100 intensità. Per una distribuzione si possono calcolare fino a 99 Percentili Per il calcolo dei Decili e dei Percentili si utilizzano le stesse formule (adattate allo specifico indice) utilizzate per il calcolo della Mediana.

77 77 quartili quantile x px I quartili di una distribuzione in classi saranno determinati in base alla formula per il generico quantile x px : in cui, individuata la classe di riferimento, si sostituirà ad F desiderata il valore 0,25 per Q 1, 0,5 per Q 2 (Me) e 0,75 per Q 3. C Q1 = C i : F i = min (F i > 0,25) = C 1 C Q3 = C i : F i = min (F i > 0,25) = C 3


Scaricare ppt "1 Corso di statistica ARCAVACATA a.a 2009-2010 Campus di Arcavacata Università della Calabria."

Presentazioni simili


Annunci Google