Introduzione Oggetto della statistica: studio dei fenomeni collettivi

Slides:



Advertisements
Presentazioni simili
STATISTICA DESCRITTIVA
Advertisements

Introduzione Oggetto della statistica: studio dei fenomeni collettivi
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
I Polinomi Prof.ssa A.Comis.
Rappresentazioni grafiche di una distribuzione di frequenze 1)Istogramma e poligono delle frequenze ● Dati raggruppati in classi ● Costituito da un insieme.
PRIMI CONCETTI ESEMPI INTRODUTTIVI DEFINIZIONI INTRODUZIONE ALLE FUNZIONI.
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Germana Scepi Corso di Statistica Anno accademico 2016-’17 Lezione:Argomento: Gli indici di variabilità4.
Organizzazione dei dati AnnoQ [m 3 /s]
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
STATISTICA.
Precorso di Statistica per le Lauree Magistrali
Statistica I Grafici Seconda Parte.
LA STATISTICA DESCRITTIVA
Statistica descrittiva
ESERCITAZIONE RIEPILOGO di Statistica Descrittiva
Elaborazione dei dati Indici di posizione centrale
Lezione 2 CARATTERI DEI DATI: approfondimento (Borra-Di Ciaccio, cap
Introduzione a Statistica e Probabilità
Analisi delle risposte
Introduzione Oggetto della statistica: studio dei fenomeni collettivi
Misure dei valori centrali
STUDIA I FENOMENI COLLETTIVI CON METODI MATEMATICI
Bergamini, Trifone, Barozzi – La matematica del triennio
PEDAGOGIA SPERIMENTALE
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
L’analisi monovariata
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Quantitative Market Research Set-up Protocol
x : variabile indipendente
Indici di variabilità Gli indici di variabilità misurano
La statistica A cura di: Manuela Mangione.
APPUNTI DI STATISTICA INFERENZIALE
Confronto tra diversi soggetti:
Introduzione a Statistica e Probabilità
La Statistica si occupa dei modi
Precorso di Statistica per le Lauree Magistrali
misure di eterogeneità
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Rapporti e proporzioni
Statistica descrittiva bivariata
L’analisi monovariata
ANALISI DELLE DISTRIBUZIONI STATISTICHE
Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.
Corso di Analisi Statistica per le Imprese Rappresentazione dei dati
Organizzazione dei dati
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Statistica descrittiva
L’indagine statistica
Statistica Scienza che studia i fenomeni collettivi.
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
Statistica.
Quantitative Market Research Set-up Protocol
“Una delle più grandi scoperte che un uomo può fare, una delle sue più grandi sorprese, è scoprire che può fare ciò che aveva paura di non poter fare”.
PEDAGOGIA SPERIMENTALE
STATISTICA Giovanni Barbaro.
Interpretare la grandezza di σ
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
Precorso di Statistica per le Lauree Magistrali
Introduzione Oggetto della statistica: studio dei fenomeni collettivi
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Esercizio 1 Prezzo in euro libri
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Frequenza a) Compilare una tabella classificando i compagni di classe secondo lo sport che preferiscono b) Compilare una tabella classificando i compagni.
Modalità rappresentazione dei dati Grafici, percentuali, tabelle …
Statistica descrittiva bivariata
EserciZI di Statistica
Transcript della presentazione:

Introduzione Oggetto della statistica: studio dei fenomeni collettivi Popolazione: insieme degli individui oggetto di una indagine statistica Unità statistica: ciascun elemento di una popolazione Campione: sottoinsieme della popolazione ESEMPIO PROIEZIONI DI VOTO (elezioni) Popolazione: tutti gli aventi diritto al voto Campione: solo gli aventi diritto interrogati

Introduzione Carattere: ogni aspetto del fenomeno da individuare Modalità: ciascuno dei diversi modi con cui un carattere può presentarsi ESEMPIO RELATIVAMENTE AL FENOMENO COLLETTIVO “GIOVANI” Il carattere Titolo di studio si può presentare nelle seguenti modalità: licenza media, qualifica professionale, diploma di scuola media superiore, laurea triennale, laurea specialistica, dottorato. Il carattere Utilizzo del tempo libero si può presentare nelle seguenti modalità: riposo, letture varie, cinema e teatro, discoteche, bar e pub, attività sportive, visite a musei o mostre, ecc.

Caratteri qualitativi e quantitativi Qualitativo: le sue modalità non sono espresse da numeri e rappresentano una mutabile statistica. CARATTERE Discreto (numeri naturali): ad esempio il numero di figli. Quantitativo: le sue modalità sono espresse da numeri e rappresentano una variabile statistica. Continuo (intervalli di numeri reali): ad esempio l’altezza o il peso.

fi T Le distribuzioni di frequenze I dati di un’indagine statistica possono essere raccolti in una distribuzione di frequenze (assolute o relative) nella quale ogni modalità xi del carattere è associata a un numero fi, la sua frequenza assoluta, che indica quante volte quel carattere compare. Frequenza relativa: pi = (T : totale delle osservazioni) fi T In forma percentuale: pi (percentuale) = pi  100% Rappresentazione della distribuzione di frequenze x x1 x2 … xn Freq. ass. f1 f2 fn Freq. rel. p1 p2 pn Dove: x: carattere xi: modalità del carattere fi: frequenze assolute pi: frequenze relative

Rappresentazione grafica Una distribuzione di frequenze può essere rappresentata graficamente mediante: Un diagramma a rettangoli o ortogrammi

Rappresentazione grafica Un diagramma circolare o areogramma: l’ampiezza di ogni settore è proporzionale alla frequenza.

Rappresentazione grafica Un diagramma cartesiano (per dati quantitativi di natura discreta)

Rappresentazione grafica Un istogramma (per dati quantitativi di natura continua) L’altezza dei rettangoli si ottiene dividendo la frequenza per l’ampiezza della relativa classe.

Sintesi dei dati Indici di posizione Sintesi dei dati Medie ferme: aritmetica, geometrica, armonica Medie lasche: moda, mediana Sintesi dei dati Indici di variabilità Scarto quadratico medio o deviazione standard σ Varianza σ2

Σ x1 + x2 + ……., + xn M = = n 176211 M = = 14684,25 12 Le medie ferme Si dice media aritmetica semplice fra n numeri x1, x2, ……., xn il rapporto M fra la loro somma ed n; x1 + x2 + ……., + xn M = = n Σ i = 1 xi ESEMPIO Un’azienda ha raccolto i dati relativi al numero di ore di lavoro mensili complessive dei dipendenti. mese 1 N. ore 12360 2 15865 3 15940 4 15758 5 16075 6 16124 7 15635 8 4520 9 15942 10 16214 11 16120 12 15658 Calcoliamo il numero medio di ore lavoro mensili. 176211 M = = 14684,25 12 La media aritmetica può essere calcolata solo per dati di tipo quantitativo.

Σ x1f1 + x2f2 + ……., + xnf M(x) = = f1 + f2 + … fn Le medie ferme Se i dati di una variabile statistica si presentano con una certa frequenza per calcolare il valor medio si usa la media ponderata. Una media in cui ogni dato ha un suo peso (rappresentato dalla sua frequenza) si dice ponderata. Se f1, f2, …… fn sono le frequenze delle modalità x1, x2, …… xn, la media aritmetica M(x) è data dalla formula x1f1 + x2f2 + ……., + xnf M(x) = = f1 + f2 + … fn Σ i = 1 xifi n fi

Num. Dei maschi nelle famiglie x Le medie ferme ESEMPIO Num. Dei maschi nelle famiglie x 1 2 3 4 5 6 7 Freq. assoluta f 50 120 300 250 190 60 20 10 Prodotto x  f 600 750 760 70 TOTALE 1000 2720 Possiamo dire che in media, ogni famiglia ha un numero di maschi pari a: 1000 2720 M = = 2,72

Le medie ferme Nel caso di una distribuzione per classi, il calcolo della media viene fatto sostituendo ciascuna classe con il suo termine centrale, ottenuto calcolando la semisomma dei valori estremi. Altezze [100-140) [140-160) [160-170) [170-175) [175-180) [180-190) [190-200) [200-210) [210-250) Maschi 8 32 120 250 330 196 50 10 4 120  8 = 960 150  32 = 4 800 165  120 = 19 800 172,5  250 = 43 125 177,5  330 = 58 575 185  196 = 36 260 195  50 = 9 750 205  10 = 2 050 230  4 = 920 TOTALE 1000 176 240 150 165 172,5 177,5 185 195 205 230 Valori centrali Freq. Prodotti 12 125 336 260 62 6 120  15 = 1 800 150  125 = 18 750 165  336 = 55 440 172,5  260 = 44 850 177,5  196 = 34 790 185  62 = 11 470 195  6 = 1 170 205  0 = 0 230  0 = 0 168 270 Altezza media dei maschi: M = = 176,24 (cm) 1000 176 240 Altezza media delle femmine: M = = 168,27 (cm) 1000 168 270

Σ x1 – M, x2 – M, ……., xn – M Le medie ferme Si chiama scarto dalla media la differenza fra il valore osservato e la media stessa. Dati cioè gli n valori x1, x2, …… xn, gli scarti dalla loro media M sono i valori x1 – M, x2 – M, ……., xn – M Proprietà della media aritmetica. La somma degli scarti della media è sempre nulla: (x1 – M) = 0 i = 1 n Σ Se si considerano i quadrati degli scarti, cioè (x1 – M)2, (x2 – M)2 ….., (xn – M)2, la somma dei quadrati degli scarti della media aritmetica è minima (rispetto a una qualunque altra media).

MG = √x1  x2, ….., xn MG = √3  6  9  15  24  36 ≈ 11,32 Le medie ferme Media geometrica semplice MG fra n numeri positivi x1, x2, ….., xn: radice n-esima del loro prodotto. MG = √x1  x2, ….., xn ESEMPIO Dati i sei numeri 3, 6, 9, 15, 24, 36 MG = √3  6  9  15  24  36 ≈ 11,32 6

MG = √(x1)f1  (x2)f2,  …..,  (xn) fn Le medie ferme Nel caso di una media geometrica ponderata: MG = √(x1)f1  (x2)f2,  …..,  (xn) fn F Dove fi: pesi e F = f1 + f2 + ….. fn ESEMPIO MG = √53  69  812  106 ≈ 7,32 30 x 5 6 8 10 f 3 9 12 TOTALE (F) 30 Nel caso di distribuzioni per classi si trova prima il valore centrale della classe e poi si effettua il calcolo della media ponderata.

√ √ x12 + x22 +…+ xn2 n 32 + 52 + 72 + 92 + 122 ≈ 7,85 5 MQ = = Σ MQ = Le medie ferme Media quadratica semplice MQ fra n numeri i x1, x2, x3 ….., xn: radice quadrata della media aritmetica dei quadrati dei dati. x12 + x22 +…+ xn2 n MQ = √ = i = 1 Σ xi2 ESEMPIO Dati i numeri 3, 5, 7, 9, 12 32 + 52 + 72 + 92 + 122 MQ = √ ≈ 7,85 5

√ √ x12 f1 + x22f2 +…..+ xn2fn f1 + f2 +…… fn Le medie ferme Nel caso di una media ponderata: x12 f1 + x22f2 +…..+ xn2fn f1 + f2 +…… fn MQ = √ Nel caso di distribuzioni per classi si usa il termine centrale di ogni classe. ESEMPIO x 5 6 8 10 f 3 9 12 TOTALE (F) 30 52  3 + 62  9 + 82  12 + 102  6 MQ = √ ≈ 7,67 30 = 1767

1 n MA = = f1 + f2 + ….. + fn MA = x1 x2 xn + + …. + f1 x1 f2 x2 fn xn Le medie ferme Media armonica semplice MA fra due numeri x1, x2, ….., xn: reciproco della media aritmetica dei reciproci dei dati. 1 n MA = = x1 x2 xn + + …. + Nel caso di una media ponderata: f1 + f2 + ….. + fn MA = f1 x1 f2 x2 fn xn + + …. +

30 MA = ≈ 7,14 x f 3 5 9 6 10 + + + 12 8 Le medie ferme Nel caso di distribuzioni per classi si utilizza il termine centrale. ESEMPIO x 5 6 8 10 f 3 9 12 TOTALE (F) 30 30 MA = 3 5 9 6 10 + + + 12 8 ≈ 7,14 Tutte le medie finora definite si possono calcolare solo per dati di tipo quantitativo.

Le medie lasche Si dice moda (valore modale) di una distribuzione di frequenze, il termine, se esiste, cui corrisponde la massima frequenza nella distribuzione. Località marine è la moda per i turisti italiani. Città di interesse storico/artistico è la moda per i turisti stranieri. Una distribuzione può avere più di un termine modale o può non averne (distribuzione in cui ogni modalità ha la stessa frequenza).

Le medie lasche Nel caso in cui una distribuzione sia per classi, si parla di classe modale. Se le classi della distribuzione hanno tutte uguale ampiezza, allora la classe modale è quella che presenta frequenza più alta. Se le classi hanno ampiezze diverse si valuta il rapporto tra frequenza e ampiezza della classe. La classe cui corrisponde l’altezza maggiore è la classe modale.

Le medie lasche Mediana Me di una distribuzione è il termine che, disposti i dati in ordine crescente o decrescente, occupa il posto centrale. Se i termini fra cui calcolare il valore mediano sono n e n è dispari, la mediana è il valore che occupa il posto ; se n è pari, tutti i punti dell’intervallo [x , x ] sono valori mediani; di solito si assume il termine centrale di questo intervallo. 2 n + 1 n n+1 ESEMPIO Date le distribuzioni di 7 termini e di 8 termini 1, 2, 3, 5, 7, 11, 20 Il termine mediano è quello di posto = 4 cioè Me = 5 2 7 + 1 1, 2, 3, 5, 7, 9, 12, 15, 34 Il termine mediano è il termine centrale dell’intervallo [7, 9] cioè Me = 8

Le medie lasche Se i valori della distribuzione hanno un loro peso, bisogna calcolare le frequenze cumulate (frequenze relative a una data modalità uguali alla somma delle frequenze di tutte le modalità minori o uguali a esse). ESEMPIO Numero voti 1 2 3 4 5 Frequenza 8 12 6 TOTALE (F) 30 Freq. cumulate 10 22 28 Consideriamo adesso la metà del totale delle frequenze (30 : 2 = 15); poiché n = 30, quindi è pari, il valore mediano è il termine centrale dell’intervallo [x15, x16] ed è quindi necessario trovare quali sono questi elementi. continua

Le medie lasche Allora, 2 posti sono occupati dalla modalità 1, 8 posti sono occupati dalla modalità 2 (in totale abbiamo 10 posti, cioè il valore della colonna delle frequenze cumulate in corrispondenza della seconda modalità), 12 sono i posti occupati dalla modalità 3 (in totale abbiamo contato 22 posti, cioè abbiamo superato la metà); quindi il quindicesimo e il sedicesimo posto sono occupati entrambi dalla modalità 3. La mediana della distribuzione è quindi il valore centrale dell’intervallo [3, 3], cioè Me = 3. Nel caso in cui n è dispari, la mediana corrisponde all’elemento di posto ; per trovarlo basta cercare nella colonna delle frequenze cumulate il primo numero che è maggiore o uguale di tale valore e leggere l’elemento corrispondente. 2 n + 1

2 N A ( ) − F f Me = i + 5  (1000 − 732) 928 Me = 5 + = 6,44 ≈ 6 Le medie lasche Se la distribuzione è per classi bisogna calcolare la frequenza cumulata. ESEMPIO Ricoveri [0-4] [5-9] [10-14] [15-19] [20-24] [25-30] Freq. Assol. 732 928 264 56 12 8 TOTALE (F) 2000 Freq. cumulate 1660 1924 1980 1992 La metà delle osservazioni è 1000 e quindi per arrivare alla mediana dobbiamo contare le prime 1000 persone disposte in ordine crescente di numero di ricoveri subiti; poiché il valore 1000 e il valore 1001 delle frequenze cumulate cadono nella seconda classe, possiamo dire che la classe mediana è la [5 – 9]. Il valore mediano si calcola poi con la formula: 2 N A ( ) − F f Me = i + N: numero totale osservazioni F: frequenza cumulata fino alla mediana esclusa f: frequenza della classe mediana A: ampiezza della classe mediana i: estremo inferiore della classe mediana 5  (1000 − 732) 928 Me = 5 + = 6,44 ≈ 6 Nel nostro caso:

Le misure di sisperione Per avere informazioni su come i dati di una indagine statistica si distribuiscono attorno ai valori di sintesi e quindi poter confrontare distribuzioni, si studiano gli indici di variabilità. Campo di variabilità di un insieme di n dati numerici x1, x2, ….. xn: differenza tra il valore massimo e il valore minimo degli xi. ESEMPIO Supponiamo che i rilevamenti compiuti su un campione di individui sulla pressione minima sanguigna abbia dato i seguenti risultati: 80 80 85 90 85 60 90 95 95 80 85 115 Il campo di variabilità di questi dati è dato da 115 – 60 = 55; se basassimo le nostre considerazioni solo su questo valore, saremmo portati a dire che in quel gruppo di persone vi è un’alta variabilità fra i dati, mentre in realtà, osservando meglio, si nota che la maggior parte di essi (tranne due) si distribuiscono in un ambito più ristretto compreso fra 80 e 95. Questo è un indice poco sensibile che è grandemente influenzato dai valori esterni.

√ √ Σ σ = Σ σ = (xi – M)2 n {(xi – M)2  fi } fi Le misure di dispersione Scarto quadratico medio o deviazione standard σ: media quadratica degli scarti dalla media aritmetica M. σ = n √ i = 1 Σ (xi – M)2 Nel caso di dati semplici σ = √ i = 1 n Σ {(xi – M)2  fi } fi Nel caso di dati ponderati con pesi fi Varianza (σ)2: quadrato dello scarto quadratico medio. Per il calcolo di σ (e quindi di σ2) si può anche usare la formula: σ = √media dei quadrati degli xi − quadrato della media

104 8 Le misure di dispersione ESEMPIO Ad otto gruppi di persone è stato chiesto di provare due tipi particolari di shampoo che indicheremo con A e B, e di sceglierne quindi uno. Gli esiti di questa scelta sono riportati nella seguente tabella. A 15 B 12 10 24 8 11 14 18 2 20 Sommando le preferenze accordate ai due prodotti, sia A che B ne hanno totalizzate 104. Mediamente = 13 voti da ciascun gruppo 8 104 continua

√ √ Σ Σ σA = σB = = = (xi – 13)2 (xi – 13)2 126 280 = 3,969 = 5,916 8 Le misure di dispersione ESEMPIO Calcoliamo lo scarto quadratico medio della distribuzione di A e di B. Preferenze di A 15 112 10 8 11 18 20 4 1 9 25 49 12 24 14 2 TOTALE 126 -1 -3 -5 -2 5 7 Scarti (Scarti)2 Preferenze di B -11 121 280 σA = 8 √ i = 1 Σ (xi – 13)2 = = 3,969 126 σB = 8 √ i = 1 Σ (xi – 13)2 = = 5,916 280 Lo shampoo A presenta una minore variabilità rispetto a B.