Elaborazione statistica di dati

Slides:

Advertisements

Presentazioni simili

Elaborazione statistica di dati

Advertisements

Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.

Rappresentazioni grafiche di una distribuzione di frequenze 1)Istogramma e poligono delle frequenze ● Dati raggruppati in classi ● Costituito da un insieme.

Indici di Posizione Giulio Vidotto Raffaele Cioffi.

Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.

Introduzione alla Statistica Corso di Misure Meccaniche e Termiche Prof. Ing. David Vetturi.

Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a

Precorso di Statistica per le Lauree Magistrali

Introduzione Oggetto della statistica: studio dei fenomeni collettivi

DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE

Insiemi di numeri e insiemi di punti

Distribuzioni limite La distribuzione normale

Introduzione a Statistica e Probabilità

Qualità dei dati Fabio Murena.

Introduzione Oggetto della statistica: studio dei fenomeni collettivi

STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.

Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a

x : variabile indipendente

L’analisi monovariata

Misure Meccaniche e Termiche - Università di Cassino

Le primitive di una funzione

Spiegazione di alcuni concetti

DISTRIBUZIONI TEORICHE DI PROBABILITA’

Il concetto di derivata

Il calcolo della probabilità

Il concetto di derivata

PIANIFICAZIONE DEI TRASPORTI Regressione lineare

Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)

x : variabile indipendente

Indici di variabilità Gli indici di variabilità misurano

Insiemi di punti: altre caratteristiche

Elementi di teoria delle probabilità

APPUNTI DI STATISTICA INFERENZIALE

Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.

Confronto tra diversi soggetti:

Introduzione a Statistica e Probabilità

Precorso di Statistica per le Lauree Magistrali

Le definizioni e il calcolo delle probabilità

misure di eterogeneità

La Statistica Istituto Comprensivo “ M. G. Cutuli”

Appunti di analisi matematica: Integrale Definito

L’analisi monovariata

I 7 strumenti della qualità

ANALISI DELLE DISTRIBUZIONI STATISTICHE

Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.

Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a

L’indagine statistica

Statistica Scienza che studia i fenomeni collettivi.

I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.

Confronto tra diversi soggetti:

Mario Scarpino - Francesco Sgaramella

Università degli Studi di Modena e Reggio Emilia

La distribuzione campionaria: principi generali

Intervalli di confidenza

PROCEDURA per la misura e la relativa stima

Equazioni di 2°grado Introduzione.

Le primitive di una funzione

Interpretare la grandezza di σ

Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.

ANALISI DI REGRESSIONE

Esercizio La popolazione di adulti presenta una media di ansia pari a 4. Ad un campione di 35 soggetti con disturbo ossessivo compulsivo è stato somministrato.

Precorso di Statistica per le Lauree Magistrali

Introduzione Oggetto della statistica: studio dei fenomeni collettivi

Associazione tra due variabili

Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1

Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a

Corso di Analisi Statistica per le Imprese

Test per campioni indipendenti

Associazione tra variabili qualitative

Corso di Analisi Statistica per le Imprese

Transcript della presentazione:

Elaborazione statistica di dati

CONCETTI DI BASE DI STATISTICA ELEMENTARE

Taratura strumenti di misura IPOTESI: grandezza da misurare identica da misura a misura Per la presenza di errori casuali, ripetendo più volte la misura di una stessa grandezza, si può ottenere una serie di valori diversi.

Collaudo sistemi di produzione IPOTESI: accuratezza strumento di misura migliore della variabilità dei manufatti Una serie di valori di misure casualmente diverse può essere ottenuta anche misurando una sola volta diversi elementi, nominalmente uguali, di una produzione industriale.

Esempio di serie di dati: Lo spessore di 110 dadi estratti dalla produzione di una macchina

Ogni serie di valori estratta dalla totalità dei valori possibili può essere considerato un campione. Esistono vari metodi per estrarre un campione che sia rappresentativo dell'universo. Qui si considerano campioni estratti casualmente.

Al sottoinsieme di “n” valori estratti dall’insieme dei valori possibili viene dato il nome di campione; l’intero insieme di dati “N” viene definito popolazione (o universo).

CAMPIONE 1 n x i   media m= x 1 n-1  i (x n  -x)2 varianza s2

La media gode della proprietà di rendere minima la somma dei quadrati degli scarti. Inoltre la somma algebrica degli scarti rispetto al valore medio è nulla.

La radice quadrata della varianza s, costituisce una stima della dispersione delle misure intorno al valore medio, al pari di s2, ma ha il pregio di avere le stesse dimensioni delle misure x.

I due parametri precedenti nel caso della popolazione, o universo composto di N elementi, si indicano con i simboli: 1 N    x i 2 (  2 )

I dati possono essere raggruppati in diversi modi I dati possono essere raggruppati in diversi modi. Una prima forma di raggruppamento si può osservare nella tabella.

Una forma di raggruppamento molto più usata è quella delle classi di intervalli di appartenenza, che non è necessario abbiano tutti la stessa ampiezza.

Raggruppando per intervalli: Frequenza Valore Frequenza Frequenza Densità di Limiti delle cumulata centrale assoluta percentuale frequenza classi percentuale della classe f fp j f j k  > di < di x ( mm ) f f = 100 100 (%) j j p n  x n m m m m k=1 (%) 6,160 6,170 6,165 3 2,73 0,273 2,73 6,170 6,180 6,175 6 5,45 0,545 8,18 6,180 6,190 6,185 12 10,91 1,091 19,09 6,190 6,200 6,195 23 20,91 2,091 40,00 6,200 6,210 6,205 26 23,64 2,364 63,64 6,210 6,220 6,215 21 19,09 1,909 82,73 6,220 6,230 6,225 11 10,00 1,000 92,73 6,230 6,240 6,235 6 5,45 0,545 98,18 6,240 6,250 6,245 2 1,82 0,182 100,00

Il numero dei dati che appartengono a una determinata classe j si chiama frequenza della classe e viene indicato con fj.

Il raggruppamento in k classi o sottogruppi, G1. Gj Il raggruppamento in k classi o sottogruppi, G1...Gj...Gk, avviene secondo il valore, ad esempio se a è il minimo degli xi e b il massimo: x G i j  a + -  < ( ) 1  b k = se

fp,i è compreso nell'intervallo [0-100]% Ad ogni classe Gi è associato il numero di elementi che vi appartengono, fi . Si definisce frequenza relativa percentuale della classe il parametro: compreso nell'intervallo [0,1], che chiameremo frequenza dell'evento E, relativa alle N prove o frequenza relativa. f è la frequenza con cui accade l’enento nelle N prove f n p i ,  100 fp,i è compreso nell'intervallo [0-100]%

La probabilità pi di ottenere la misura all’interno dell’intervallo che definisce la classe Gi vale:    lim

Raggruppando per intervalli: Frequenza Valore Frequenza Frequenza Densità di Limiti delle cumulata centrale assoluta percentuale frequenza classi percentuale della classe f fp j f j k  > di < di x ( mm ) f f = 100 100 (%) j j p n  x n m m m m k=1 (%) 6,160 6,170 6,165 3 2,73 0,273 2,73 6,170 6,180 6,175 6 5,45 0,545 8,18 6,180 6,190 6,185 12 10,91 1,091 19,09 6,190 6,200 6,195 23 20,91 2,091 40,00 6,200 6,210 6,205 26 23,64 2,364 63,64 6,210 6,220 6,215 21 19,09 1,909 82,73 6,220 6,230 6,225 11 10,00 1,000 92,73 6,230 6,240 6,235 6 5,45 0,545 98,18 6,240 6,250 6,245 2 1,82 0,182 100,00

Rappresentazione dei dati raggruppati in classi

Nell’esempio precedente per ognuna delle classi Gi è stata definita la probabilità pi che una misura appartenga all’intervallo della classe i-esima. In taluni casi particolari, ma estremamente importanti, è addirittura possibile ridurre tale informazione alla conoscenza di alcuni parametri significativi. ad esempio per la distribuzione gaussiana è sufficiente conoscere la media e la varianza.

La distribuzione di probabilità è l’insieme delle probabilità pi assegnate alle k classi. La rappresentazione della distribuzione di probabilità può essere fatta o con l’istogramma delle frequenze o con il poligono delle frequenze, cioè mediante k punti discreti. In taluni casi particolari, ma estremamente importanti, è addirittura possibile ridurre tale informazione alla conoscenza di alcuni parametri significativi. ad esempio per la distribuzione gaussiana è sufficiente conoscere la media e la varianza.

Per variabili discrete valgono le seguenti relazioni: x i K s t k    1 2 ; ( ) ,   ps,t rappresenta la probabilità cumulata delle classi da s a t ovvero del verificarsi che : x s t 

10% = Percentuale di dati con valore compreso in questa classe 24 22 20 18 16 Frequenza_relativa [%] 14 12 10 8 6 4 2 6.165 6.245 valore centrale della classe

Poligono delle frequenze 24 22 20 18 16 14 Frequenza relativa [%] 12 10 8 6 4 2 6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 x [mm]

Un diagramma di tipo diverso si ottiene rappresentando le frequenze cumulate. In corrispondenza al limite superiore di ogni classe si riporta la frequenza relativa percentuale dei dati che hanno una misura inferiore a quel limite.

limite superiore della classe mm 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 10 20 30 40 50 60 70 80 90 100 (Vedi pag. 22) Frequenze cumulate percentuali k = 4 % dati che assumono valori minori di xk limite superiore della classe mm

distribuzione di Gauss Frequenza relativa 6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 x (mm) 2 4 6 8 10 12 14 16 18 20 22 24 distribuzione di Gauss Frequenza relativa frequenza relativa

LE DISTRIBUZIONI DI PROBABILITA’ In taluni casi particolari, ma estremamente importanti, è addirittura possibile ridurre tale informazione alla conoscenza di alcuni parametri significativi. ad esempio per la distribuzione gaussiana è sufficiente conoscere la media e la varianza.

Variabili continue

Nell’esempio precedente se si considera la variabile altezza (prescindendo dalla sua misura) quello che si ottiene è una variabile continua. Ogni valore dell’altezza è possibile e la distribuzione di probabilità è rappresentata da una funzione continua.

LA DISTRIBUZIOINE GAUSSIANA O NORMALE

mx=valore medio x=varianza Il teorema limite centrale afferma che la distribuzione gaussiana permette di descrivere in maniera soddisfacente tutti quei fenomeni fisici caratterizzati dalla sovrapposizione di un elevato numero di effetti deboli indipendenti aventi loro natura statistica a media nulla. mx=valore medio x=varianza

f(x) 1 2 e      x   Distribuzione gaussiana (o normale) s f (x) mx=valore medio x=varianza

Esempio: distribuzione della variabile somma probabilità di aB = aA = bB = bA = 50% probabilità di aB + bB = 25% probabilità valore basso = 25% probabilità di aB + bA = 25% probabilità valore medio = 50% probabilità di aA + bB = 25% probabilità di aA + bA = 25% probabilità valore alto = 25% Distribuzione di ‘a’ Distribuzione di ‘a+b’ aB aA Distribuzione di ‘b’ bB bA

distribuzione di gauss Frequenza relativa 6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 x (mm) 2 4 6 8 10 12 14 16 18 20 22 24 distribuzione di gauss Frequenza relativa frequenza relativa

z = x - f(z) 1 2 e      Distribuzione normale standard   f (z) Il valor medio è nullo e la varianza è pari ad 1 5

F(z) = p(zi z) Frequenze cumulate Grafico delle Frequenze cumulate -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 F (z) Analisi della normalità della distribuzione Il grafico di probabilità normale (GPN) 1 Grafico delle Frequenze cumulate Il valor medio è in corrispondenza del 50% di probabilità cumulata

F(z) = p(zi z) z1 z2 Utilità della funzione cumulativa: F(z2) F(z1) 0.9 0.8 F(z) = p(zi z) 0.7 0.6 0.5 0.4 0.3 F(z1) Analisi della normalità della distribuzione Il grafico di probabilità normale (GPN) 1 0.2 0.1 -3 -2 -1 1 2 3 z1 z2 p(zi [z1,z2]) = p(zi < z2) - p(zi < z1) p(zi [z1,z2]) = F(z2) - F(z1)

    p x ( ) .      680 2 950 3 997 p zi     1 p zi F   -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 z p(zi<z) = F(z) p(zi >z) Distribuzione di probabilità simmetrica:   p zi     z 1   p zi F    z 2 1 ( )) Valori notevoli spiegare il significato di questi valori Valori notevoli 5 p x ( ) .      680 2 950 3 997 z

ANALISI DEI DATI A CAMPIONE

I modelli di distribuzione statistica permettono di determinare la probabilità che ha una singola misura di avere un certo scarto dal valore medio.

Si pensi di estrarre dalla totalità delle misure (universo) alcuni campioni costituiti ciascuno da n elementi. Le medie dei campioni, considerate come variabili statistiche hanno una dispersione inferiore a quella dei singoli elementi.

Data una distribuzione qualsiasi di elementi con media m e scarto quadratico s, se si raggruppano gli elementi a caso in campioni sufficientemente numerosi, n= 5 - 6 , la distribuzione delle medie segue quasi fedelmente la legge di distribuzione normale (di Gauss).

Inoltre la media di tali medie è ancora m e lo scarto quadratico si riduce a:  (x) n  x … per questo motivo è sempre opportuno ripetere più volte una misura e prendere come migliore stima il valore medio

Esclusione dei valori meno probabili Il criterio di Chauvenet Nel campo dell’analisi sperimentale è frequente trovare, in una serie di misure, qualche dato che non concorda con gli altri.

Il criterio di Chauvenet dà la possibilità di formulare un giudizio di accettazione dei dati in base a considerazioni di tipo statistico. Esclusione dei valori meno probabili Nel campo dell’analisi sperimentale à frequente trovare, in una serie di misure, qualche dato che non concorda con gli altri.

In una serie di n dati sperimentali, se alcuni valori presentano uno scostamento dal valore medio che ha probabilità di verificarsi inferiore di 1/(2n), allora quei valori devono essere scartati. Il criterio di Chauvenet Eslusione dei dati meno probabili

Si z CRITERIO DI CHAUVENET 1 p  1  2 n determinare z: Scarto ridotto Il criterio di Chauvenet Implementazione Non si può ripetere la procdeura determinare z: z Si SCARTARE IL DATO

La spiegazione discende da semplici considerazioni sulla distribuzione: 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 z -z z -3 -2 -1 1 2 3 I valori appartenenti a questo intervallo esterno possono essere eliminati (si noti che la probabilità associata ai due semi-intervalli è effettivamente pari a 1/2n)

ANALISI DELLA NORMALITA’ DI UNA DISTRIBUZIONE Il grafico di probabilità normale Il test del chi-quadro

IL GRAFICO DI PROBABILITÀ NORMALE Si vuole verificare se la distribuzione dei dati sperimentali può essere rappresentata mediante la legge di Gauss o meno. Analisi della normalità della distribuzione Il criterio di Chauvenet richiede l’ipotesi di normalità, se non è verificata non può essere applicato.

grafico di probabilità normale -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.90 0.95 0.98 0.99 0.01 0.02 0.05 0.10 Analisi della normalità della distribuzione GPN procedura operativa 1 Cambio scala sulle ordinate Si ottiene una retta

1 0.99 0.98 0.95 0.90 Analisi della normalità della distribuzione GPN procedura operativa 2 Se invece della variabile normalizzata y si utilizzano i dati non normalizzati, la retta cambia al variare del valore medio e della varianza. 0.5 0.10 0.05 0.02 0.01

Distribuzione iper-normale 1 0.99 0.98 0.95 Analisi della normalità della distribuzione Distribuzione iper-normale 0.90 0.5 0.10 0.05 0.02 0.01

Distribuzione ipo-normale 1 0.99 0.98 0.95 Analisi della normalità della distribuzione Distribuzione ipo-normale 0.90 0.5 0.10 0.05 0.02 0.01

Distribuzione asimmetrica 1 0.99 0.98 0.95 Analisi della normalità della distribuzione Distribuzione asimmetrica 0.90 0.5 0.10 0.05 0.02 0.01

Distribuzione bimodale 1 0.99 0.98 0.95 Analisi della normalità della distribuzione Distribuzione bimodale 0.90 0.5 0.10 0.05 0.02 0.01

IL TEST DEL 2 Permette di valutare quantitativamente, su base statistica, se una serie di dati appartiene ad un tipo di distribuzione (non necessariamente normale).

IL TEST DEL 2    2 1    f j o a K K è il numero di classi in cui si sono suddivisi i dati foj è la frequenza assoluta osservata per la classe j faj è la frequenza assoluta aspettata in base alla distribuzione che si vuole provare

      f j 1 K 1) Calcolare: a o PROCEDURA 2 Il test del 2 Implementazione

2) Definire il rischio d’errore e calcolare: PROCEDURA 2) Definire il rischio d’errore e calcolare: Il test del 2 Implementazione

   K 3 PROCEDURA 3) Calcolare il numero di gradi di libertà  : Il test del 2 Implementazione

4) Dalle tabelle determinatre: PROCEDURA 4) Dalle tabelle determinatre: Il test del 2 Implementazione

Se verificato, non vi sono ragioni statistiche, PROCEDURA 5) Eseguire il test: Il test del 2 Implementazione Se verificato, non vi sono ragioni statistiche, per rifiutare il modello di distribuzione sottoposto a test.