STATISTICA.

Slides:



Advertisements
Presentazioni simili
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
Advertisements

Introduzione all’uso degli indicatori di valutazione ed ai metodi di valutazione Dott.ssa Gabriella Giuliano Direttore Sanitario CREAS-IFC-CNR giugno.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
Rappresentazioni grafiche di una distribuzione di frequenze 1)Istogramma e poligono delle frequenze ● Dati raggruppati in classi ● Costituito da un insieme.
Indici di Posizione Giulio Vidotto Raffaele Cioffi.
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Precorso di Statistica per le Lauree Magistrali
Statistica I Grafici Seconda Parte.
LA STATISTICA DESCRITTIVA
Introduzione Oggetto della statistica: studio dei fenomeni collettivi
Statistica descrittiva
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
Elaborazione dei dati Indici di posizione centrale
Variabili casuali a più dimensioni
Introduzione Oggetto della statistica: studio dei fenomeni collettivi
Misure dei valori centrali
Statistica Prima Parte I Dati.
STUDIA I FENOMENI COLLETTIVI CON METODI MATEMATICI
Bergamini, Trifone, Barozzi – La matematica del triennio
Le equazioni di II°Grado
PEDAGOGIA SPERIMENTALE
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
L’analisi monovariata
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Quantitative Market Research Set-up Protocol
x : variabile indipendente
Indici di variabilità Gli indici di variabilità misurano
La statistica A cura di: Manuela Mangione.
APPUNTI DI STATISTICA INFERENZIALE
Introduzione a Statistica e Probabilità
La Statistica si occupa dei modi
Precorso di Statistica per le Lauree Magistrali
misure di eterogeneità
Ripasso dei concetti fondamentali
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Appunti di analisi matematica: Integrale Definito
Statistica descrittiva bivariata
L’analisi monovariata
I 7 strumenti della qualità
ANALISI DELLE DISTRIBUZIONI STATISTICHE
Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.
Corso di Analisi Statistica per le Imprese Rappresentazione dei dati
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
L’indagine statistica
Statistica Scienza che studia i fenomeni collettivi.
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
Confronto tra diversi soggetti:
Università degli Studi di Modena e Reggio Emilia
Statistica.
Quantitative Market Research Set-up Protocol
Statistica descrittiva bivariata
Statistica descrittiva bivariata
“Una delle più grandi scoperte che un uomo può fare, una delle sue più grandi sorprese, è scoprire che può fare ciò che aveva paura di non poter fare”.
STATISTICA Giovanni Barbaro.
Interpretare la grandezza di σ
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
ANALISI DI REGRESSIONE
Precorso di Statistica per le Lauree Magistrali
Introduzione Oggetto della statistica: studio dei fenomeni collettivi
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Corso di Analisi Statistica per le Imprese
Numeri indice di prezzi e quantità
Frequenza a) Compilare una tabella classificando i compagni di classe secondo lo sport che preferiscono b) Compilare una tabella classificando i compagni.
Corso di Analisi Statistica per le Imprese
Statistica descrittiva bivariata
Analisi Univariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°3.
EserciZI di Statistica
Transcript della presentazione:

STATISTICA

DEFINIZIONE E CAMPO DI STUDIO DELLA STATISTICA La statistica indaga su fenomeni collettivi, cioè su fenomeni che riguardano un insieme di individui, oggetti, beni raccogliendo informazioni relative ad essi traducendole poi in un modello numerico che possa essere analizzato Il gruppo preso in esame è definito con il termine “popolazione” . Il singolo elemento della popolazione è detto “individuo” o “unità statistica”.

Facciamo alcuni esempi di popolazioni statistiche: I cittadini che hanno il diritto al voto nelle elezioni per il Parlamento. Gli abitanti della Francia. Le autovetture in circolazione attualmente in Italia. Le aziende tessili in Liguria. Gli studenti di una Istituzione Scolastica Le abitazioni esistenti in una cittadina

LO STUDIO DELLA STATISTICA PUO’ ESSERE SUDDIVISO IN DUE PARTI: STATISTICA DESCRITTIVA Raccoglie ed elabora i dati per studiare un fenomeno collettivo STATISTICA INDUTTIVA Si occupa dei metodi per stimare un fenomeno collettivo a partire da un campione ricavato da esso

FASI DELLA STATISTICA DESCRITTIVA RAPPRESENTAZIONE DEI DATI ELABORAZIONE DATI RACCOLTA DATI Calcolo medie e indici variabilità tabelle grafici Piano rilevazione

COSA RILEVARE? I caratteri che formano l’oggetto di una rilevazione statistica, possono essere: Qualitativi, espressi in forma verbale, sovente rappresentata da aggettivi. Esempi: il colore; la nazionalità; lo stato civile; l’affidabilità; l’attitudine ai lavori manuali; l’attitudine agli studi… Quantitativi, espressi da numeri. Esempi: la statura, il peso, il numero di stanze di un appartamento … Le modalità di un carattere quantitativo saranno, allora, espresse da numeri, che si chiamano anche “i valori” di quel carattere.

I caratteri qualitativi si possono classificare in: Sconnessi: relazioni di diversità (es. colore dei capelli) Ordinati: relazioni d’ordine (es. grado d’istruzione) I caratteri quantitativi, invece, si possono classificare in: Discreti: insieme finito o infinito numerabile (es. numero componenti di una famiglia) Continui: carattere espresso con un numero reale (es. altezze di un certo gruppo di individui)

COME RAPPRESENTARE I DATI Il modo più semplice ed immediato per rappresentare i dati è costituito da tabelle. Esiste una classificazione SERIAZIONE STATISTICA: Tabella contenente frequenze di intensità di un carattere QUANTITATIVO SERIE STATISTICA: Tabella contenente frequenze di modalità di un carattere QUALITATIVO SERIE STORICHE: Tabella contenente intensità di un carattere QUANTITATIVO rilevato per modalità TEMPORALI( p.es. le vendite di automobili negli ultimo 10 anni)

Seriazione statistica TITOLO DI STUDIO N.PERSONE lic.elementare 2.000   lic. Media 6.000 diploma 10.000 laurea NUMERO STANZE N.APPARTAMENTI 1 300   2 500 3 2.000 4 3.000 5 150 6 100 7 Serie statistica Seriazione statistica

Peso (in grammi) N° neonati 1.800-2.200 10 2.200-2.600 32 2.600-3.000 120 3.000-3.400 254 3.400-3.800 134 3.800-4.200 40 4.200-4.600 ANNO VENDITE AUTO 1996 10.000   1997 15.000 1998 20.000 1999 18.000 2000 17.000 2001 22.000 2002 23.000 2003 Seriazione statistica con dati divisi in classi Si suddividono i dati in classi quando il carattere analizzato è continuo Serie temporale

Il numero che rappresenta quante unità statistiche presentano un certo carattere prende il nome di frequenza assoluta di quella modalità. L’insieme delle coppie ordinate(modalità, frequenza assoluta) si dice distribuzione di frequenze, cioè una funzione che può essere rappresentata elencandone tutte le coppie organizzate in una tabella. E’ possibile calcolare anche le cosiddette frequenze relative che possono anche essere espresse in forma percentuale Frequenza assoluta è il numero di individui il cui carattere assume un determinato valore. Frequenza relativa è il rapporto tra la frequenza assoluta e la totalità della popolazione statistica su cui si sta svolgendo l’indagine. Frequenza percentuale è semplicemente la frequenza relativa espressa in termini percentuali.

Frequenza percentuale Come esempio si riportano i risultati su un’indagine condotta su un gruppo di 50 persone relativa al numero di sigarette fumate ogni giorno: Carattere Frequenza assoluta Frequenza relativa Frequenza percentuale Frequenza cumulata 20 0,4 40 % 40% 5 10 0,2 20 % 60% 80% 15 0,1 10 % 90% 10% 100% TOTALE 50 1 Frelativa = Fassoluta / Totale Talvolta può essere utile calcolare anche la frequenza cumulata (percentuale o relativa)

USO DEI GRAFICI I dati raccolti in tabelle possono essere rappresentati attraverso grafici che offrono il vantaggio di una descrizione del fenomeno in forma visiva. Possono essere utilizzati i seguenti tipi di grafici: Diagrammi cartesiani Istogrammi e ortogrammi Diagrammi a nastro Diagrammi circolari Diagrammi polari Cartogrammi Ideogrammi

Diagrammi cartesiani sono usati soprattutto per le serie temporali

Istogrammi Si usano per rappresentare seriazioni continue con i dati raggruppati in classi. Le altezze dei rettangoli sono proporzionali alle frequenze

Ortogrammi Sono simili agli istogrammi ma usati per serie statistiche Ortogrammi Sono simili agli istogrammi ma usati per serie statistiche. Possono anche caratterizzarsi per più rettangoli affiancati

Diagrammi a nastro

Diagrammi circolari

Diagrammi circolari

Diagrammi polari sono usati per particolari serie storiche con carattere di ciclicità

Cartogrammi Sono utilizzati per rappresentare serie territoriali 7,3 11 20,1

ELABORAZIONE DEI DATI QUESTA FASE SERVE AD ESPRIMERE IN MODO SINTETICO I RISULTATI DELL’INDAGINE SVOLTA CALCOLANDO DEGLI INDICI: VALORI MEDI INDICI DI VARIABILITA’

I valori medi Il valore medio è un valore che esprime una tendenza centrale. Secondo Cauchy la media di un insieme è un valore compreso tra il minimo e il massimo. Medie di calcolo : sono quelle che si calcolano tenendo conto di tutti i valori della distribuzione Media aritmetica e sue proprietà Media Geometrica Media quadratica Medie di posizione : sono quelle che si calcolano tenendo conto solo di alcuni valori della distribuzione Mediana Moda o valore normale

MEDIA ARITMETICA x1 + x2 +… x n M = n x1·f1 + x2·f2 +… x n· f n Σ x·f Questa viene chiamata media semplice ed è utilizzata quando i valori rilevati non sono riportati con le frequenze x1·f1 + x2·f2 +… x n· f n Σ x·f M = = N Σ f Questa viene chiamata media ponderata ed è utilizzata quando i valori rilevati hanno frequenze diverse

PROPRIETA’ DELLA MEDIA ARITMETICA Si definisce scarto della media aritmetica la differenza tra il valore osservato e la media stessa xi – M La somma degli scarti positivi dalla media aritmetica è uguale, in valore assoluto, a quella degli scarti negativi, e quindi la somma algebrica di tutti gli scarti dalla media è uguale a zero. Pertanto ne consegue che: ∑ ( xi – M ) = 0

MEDIA GEOMETRICA Se i valori sono tutti positivi e non nulli si può calcolare la media geometrica.  Si definisce media geometrica dei valori x1, x2, …, xn, quel numero G che sostituito ai valori xi lascia invariato il loro prodotto: che è la media geometrica semplice.  Nel caso di valori xi con frequenze o pesi yi, si ha: dove: Dove f sono le frequenze

USO DELLA MEDIA GEOMETRICA La media geometrica viene utilizzata quando si vuole analizzare il variare di un fenomeno nel tempo , per esempio il tasso di variazione dei prezzi o i tassi di rendimento di capitali. ESEMPIO Un capitale è stato impiegato per 4 anni al tasso del 2%, per altri 3 anni al tasso del 3 % ed in fine per 2 anni al tasso del 5%. Per il calcolo del tasso medio si può impiegare la Media Geometrica Ponderata:

MEDIANA Dati un insieme di valori x1, x2, x3,…. xn ordinati si definisce Mediana il valore che bipartisce la successione. Ovvero il valore centrale se il numero dei termini è dispari La media aritmetica dei due valori centrali se il numero dei termini è pari. Esempio: Calcolare la Mediana dei seguenti valori: Il Valore 9 è quello che sta in centro ed è pertanto la mediana 4 7 8 9 10 12 55 8 22 33 36 38 41 44 46 La mediana è la media aritmetica dei due valori centrali (36+38)/2 = 37

MEDIANA Se si ha invece una distribuzione di frequenze, occorre calcolare le frequenze cumulate. Indicando con N la somma delle frequenze, la Mediana è il valore corrispondente a N/2 se N è pari a (N+1)/2 se N è dispari Indagine sul numero di figli su un campione di famiglie N.Figli Frequenze assolute Frequenze cumulate 3 1 8 11 2 7 18 4 22 23 5 24 6 25 Tot 25 N =25 quindi la mediana è il valore corrispondente a (N+1)/2 = (25+1)/2 = 13 cioè il valore 2

Classi cilindrata(cc) MEDIANA Se i dati sono raggruppati in classi si determina la classe mediana mediante le frequenze cumulate quindi si procede con un’interpolazione lineare. Esempio: è stata condotta una ricerca sulla cilindrata delle auto possedute da un campione di persone: Poiché N è pari N/2 =1250 che corrisponde alla Classe Mediana 1200-1600 Classi cilindrata(cc) F.ass. F. cum. 0-800 100 800-1200 840 940 1200-1600 955 1895 1600-2000 305 2200 2000-2500 200 2400 2500-3000 2500 Tot 2500 Per giungere ad un valore preciso della Mediana si deve impostare una proporzione: 940 x 1250 1895 (x-1200) : (1600-1200) = (1250-940) : (1895 -940)

MODA Si dice Moda o Valore Modale di una distribuzione di frequenze il valore corrispondente alla massima frequenza Esempio Voti matematica F.ass. 3 2 4 1 5 7 6 8 9 10 La Moda è il valore 5 poiché è il valore corrispondente alla frequenza più alta

MODA Se i valori sono raggruppati in classi si determina la Classe Modale: Se l’ampiezza delle classi è costante si dirà classe modale quella con frequenza maggiore; Se l’ampiezza delle classi non è costante si divide ogni frequenza per l’ampiezza della rispettiva classe calcolando così la densità di frequenza; il valore più alto di densità definisce la classe modale N.B. esistono delle distribuzione di frequenza che presentano più valori della moda( distribuzioni plurimodali)

COME SI SCEGLIE UNA MEDIA ? Si possono solo fare considerazioni a carattere generale: La media aritmetica è più utilizzata per esprimere un concetto di equidistribuzione La media geometrica è utilizzata quando i dati si susseguono in progressione geometrica La media quadratica quando si vuole eliminare l’influenza dei segni e quando si vuole dare importanza a valori piuttosto grande La moda si usa quando è importante rilevare il valore che ha maggior probabilità di presentarsi La mediana è caratterizzata dal fatto di non essere influenzata dalla rilevante differenza tra i dati

La proprietà di robustezza la media aritmetica e la mediana calcolate a partire dallo stesso data set, come abbiamo visto, possono essere diverse. Ciò non deve stupire perché esse corrispondono a due diverse definizioni di centro di una distribuzione. Quando la media aritmetica e la mediana di una stessa distribuzione sono molto diverse tra loro, allora è consigliabile riportarle entrambe.

La proprietà di robustezza Consideriamo la seguente distribuzione di redditi: $40000 $50000 $58000 $60000 $136000 Questa è sintetizzata meglio dalla mediana (piuttosto che dalla media aritmetica) perché la mediana non è influenzata dal valore estremo $136000. Infatti Me=$58000 e µ=$68800. Quindi quando vi offriranno un lavoro, non chiedete a chi ve lo sta offrendo lo stipendio medio nell’azienda. Prima di scegliere se accettare l’offerta, chiedete lo stipendio mediano!

LA VARIABILITA’ I valori medi sono indici importanti per la descrizione sintetica di un fenomeno statistico però non forniscono informazioni sulla dispersione dei dati cioè sulla loro variabilità Esempio Due gruppi di studenti hanno sostenuto una prova di matematica con i seguenti risultati: 1°Gruppo 3 4 5 8 10 2° Gruppo 6 7 La media dei voti per entrambi i gruppi vale 6, ma è evidente che i dati del 1° gruppo sono molto più dispersi

INDICI DI VARIABILITA’ Per stimare la variabilità si ricorre ad alcuni indici: Campo di variazione Scarto quadratico medio Varianza Coefficiente di variazione Scostamento semplice medio

CAMPO DI VARIAZIONE( RANGE) E’ il più semplice degli indici di variazione: Si calcola facendo la differenza tra il dato più grande e il dato più piccolo Campo variazione R = x max – x min Il C.V. è molto semplice da calcolare però è poco significativo poiché tiene conto solo del valore più piccolo e di quello più grande trascurando tutti gli altri valori. Il campo di variazione dà informazioni sulla distribuzione dei dati: più R è piccolo più i dati sono concentrati; più R è grande più i dati sono dispersi

SCARTO QUADRATICO MEDIO E VARIANZA Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati. Scarto quadratico medio(o deviazione standard) Rappresenta la media quadratica, semplice o ponderata degli scarti dei dati dalla media aritmetica M dove:

Varianza E’ definita come il quadrato dello scarto quadratico medio e viene indicata con σ2 Per il calcolo della varianza e dello scarto quadratico medio si preferisce adottare la seguente formula facilmente dimostrabile: Se i dati sono senza frequenze dove

OSSERVAZIONI La varianza 2 e lo scarto quadratico medio  danno informazioni sulla distribuzione dei dati: più sono piccoli più i dati sono concentrati; più sono grandi più i dati sono dispersi.

Calcolare varianza e scarto quadratico medio Esempio: Calcolare varianza e scarto quadratico medio valore frequenza 2 3 4 1 8 11

Lo scarto quadratico medio rappresenta un indice statistico importante che può essere sintetizzato dalla seguente tabella Il 68,27% dei casi è compreso tra M- σ e M+ σ ( cioè uno scarto quadratico medio da ogni parte della media Il 95,45% dei casi è compreso tra M- 2 σ e M+ 2 σ ( cioè due scarti quadratici medi da ogni parte della media Il 99,73% dei casi è compreso tra M-3 σ e M+ 3 σ ( cioè tre scarti quadratici medi da ogni parte della media

L'importanza di questi concetti La distribuzione di Gauss è spesso detta normale. L'aggettivo è significativo perché indica che moltissimi fenomeni possono essere descritti da una curva gaussiana. Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un campione di 1.000 soggetti. Probabilmente otterremmo una curva a campana, centrata attorno a una media, del tipo 174 cm di media con una "deviazione standard" di circa 20 cm, cioè il 95% dei soggetti analizzati sarebbe compreso fra 154 cm e 194 cm.

L'importanza di questi concetti Molte persone dopo aver fatto le analisi del sangue, si preoccupano che un dato valore sia fuori range. Qual è l'errore logico che commettono? Di solito uno dei due:   ■credere che il range di normalità sia assoluto: al di fuori di esso c'è patologia; ■non conoscere la distribuzione del parametro. Il primo punto è quello che genera maggiori preoccupazioni; in realtà i parametri clinici si distribuiscono secondo curve a campana centrate attorno a una media; i range di riferimento cercano di indicare con buona probabilità quando si è di fronte a un individuo normalmente sano. Un po' come se si dicesse che gli italiani maschi sono alti da 165 a 185 cm: un soggetto alto 163 cm è comunque normale, mentre un soggetto adulto alto 140 cm è sicuramente affetto da nanismo. Per capire fino in fondo l'esame occorrerebbe quindi avere non solo il range di riferimento, ma anche la distribuzione completa dei valori nella popolazione, cioè capire la "gaussiana" dei valori normali e conoscere la sua deviazione standard

L'importanza di questi concetti Per esempio, per la glicemia la deviazione standard potrebbe essere 10 mg/dl con una media di 95 mg/dl, per cui, nonostante i valori "consigliati" da un laboratorio siano 80-110, anche un valore di 75 (sportivo) o 115 potrebbe essere attribuito a un soggetto sano. Consideriamo poi che ci sarebbe sempre e comunque un 5% di soggetti sani con valori al di fuori del range 75-115. Per altri parametri la deviazione standard potrebbe essere ancora maggiore. Quindi se abbiamo capito il concetto di gaussiana, non è tanto importante capire se un parametro è vicino alla media della popolazione, quanto se ne è talmente lontano da avere pochissime probabilità di essere sani!

La varianza e lo scarto quadratico medio L'indice di variabilità più noto è la varianza che viene definita come la media aritmetica degli scarti di ciascuna modalità dalla media aritmetica, elevati al quadrato. In formula: . Dove il simbolo   (lettera greca sigma) indica l'operazione di somma, xi le modalità assunte da ciascuna unità, M e N rispettivamente la media aritmetica e la numerosità del collettivo. Così, per esempio, se in un collettivo di 4 soggetti rileviamo il peso di ciascuno (in Kg), 67, 73, 59 e 81, la media aritmetica sarà 70 e la varianza La varianza dei pesi rilevati (in Kg) è espressa in Kg2, e non è di immediata interpretazione. Per questo motivo si usa più comunemente lo scarto quadratico medio (s.q.m.), espresso dalla radice quadrata della varianza Nel nostro esempio Il risultato è espresso nella stessa unità di misura del carattere (Kg) e ci dice che i pesi delle unità del collettivo si discostano mediamente dalla media aritmetica di 8,06 Kg.

Significato di La deviazione standard, in presenza di un numero abbastanza alto di misurazioni, rappresenta al meglio l’errore assoluto, ed è quindi di fondamentale importanza per determinare con correttezza l’entità delle fluttuazioni riscontrate in una misura.

IL COEFFICIENTE DI VARIAZIONE CV Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale. E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza).

SCOSTAMENTO SEMPLICE MEDIO Un altro modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze Scostamento semplice medio = Distanza media dei dati dalla media Se i dati sono senza frequenze dove In alcuni casi in tali formule è possibile sostituire alla Media Aritmetica M la Mediana Me

Lo scostamento semplice medio dalla media dà informazioni sulla distribuzione dei dati: più SM è piccolo più i dati sono concentrati; più SM è grande più i dati sono dispersi