La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Elaborazione statistica di dati

Presentazioni simili


Presentazione sul tema: "Elaborazione statistica di dati"— Transcript della presentazione:

1 Elaborazione statistica di dati

2 CONCETTI DI BASE DI STATISTICA ELEMENTARE

3 Taratura strumenti di misura
IPOTESI: grandezza da misurare identica da misura a misura Per la presenza di errori casuali, ripetendo più volte la misura di una stessa grandezza, si può ottenere una serie di valori diversi.

4 Collaudo sistemi di produzione
IPOTESI: accuratezza strumento di misura migliore della variabilità dei manufatti Una serie di valori di misure casualmente diverse può essere ottenuta anche misurando una sola volta diversi elementi, nominalmente uguali, di una produzione industriale.

5 Esempio di serie di dati:
Lo spessore di 110 dadi estratti dalla produzione di una macchina

6 Ogni serie di valori estratta dalla totalità dei valori possibili può essere considerato un campione. Esistono vari metodi per estrarre un campione che sia rappresentativo dell'universo. Qui si considerano campioni estratti casualmente.

7

8

9 Al sottoinsieme di “n” valori estratti dall’insieme dei valori possibili viene dato il nome di campione; l’intero insieme di dati “N” viene definito popolazione (o universo).

10 CAMPIONE 1 n x i media m= x 1 n-1 i (x n -x)2 varianza s2

11 La media gode della proprietà di rendere minima la somma dei quadrati degli scarti. Inoltre la somma algebrica degli scarti rispetto al valore medio è nulla.

12 La radice quadrata della varianza s, costituisce una stima della dispersione delle misure intorno al valore medio, al pari di s2, ma ha il pregio di avere le stesse dimensioni delle misure x.

13 I due parametri precedenti nel caso della popolazione, o universo composto di N elementi, si indicano con i simboli: 1 N x i 2 ( 2 )

14 I dati possono essere raggruppati in diversi modi
I dati possono essere raggruppati in diversi modi. Una prima forma di raggruppamento si può osservare nella tabella.

15

16 Una forma di raggruppamento molto più usata è quella delle classi di intervalli di appartenenza, che non è necessario abbiano tutti la stessa ampiezza.

17 Raggruppando per intervalli:
Frequenza Valore Frequenza Frequenza Densità di Limiti delle cumulata centrale assoluta percentuale frequenza classi percentuale della classe f fp j f j k > di < di x ( mm ) f f = 100 100 (%) j j p n x n m m m m k=1 (%) 6,160 6,170 6,165 3 2,73 0,273 2,73 6,170 6,180 6,175 6 5,45 0,545 8,18 6,180 6,190 6,185 12 10,91 1,091 19,09 6,190 6,200 6,195 23 20,91 2,091 40,00 6,200 6,210 6,205 26 23,64 2,364 63,64 6,210 6,220 6,215 21 19,09 1,909 82,73 6,220 6,230 6,225 11 10,00 1,000 92,73 6,230 6,240 6,235 6 5,45 0,545 98,18 6,240 6,250 6,245 2 1,82 0,182 100,00

18 Il numero dei dati che appartengono a una determinata classe j si chiama frequenza della classe e viene indicato con fj.

19 Il raggruppamento in k classi o sottogruppi, G1. Gj
Il raggruppamento in k classi o sottogruppi, G1...Gj...Gk, avviene secondo il valore, ad esempio se a è il minimo degli xi e b il massimo: x G i j a + - < ( ) 1 b k = se

20 fp,i è compreso nell'intervallo [0-100]%
Ad ogni classe Gi è associato il numero di elementi che vi appartengono, fi . Si definisce frequenza relativa percentuale della classe il parametro: compreso nell'intervallo [0,1], che chiameremo frequenza dell'evento E, relativa alle N prove o frequenza relativa. f è la frequenza con cui accade l’enento nelle N prove f n p i , 100 fp,i è compreso nell'intervallo [0-100]%

21 La probabilità pi di ottenere la misura all’interno dell’intervallo che definisce la classe Gi vale:
lim

22 Raggruppando per intervalli:
Frequenza Valore Frequenza Frequenza Densità di Limiti delle cumulata centrale assoluta percentuale frequenza classi percentuale della classe f fp j f j k > di < di x ( mm ) f f = 100 100 (%) j j p n x n m m m m k=1 (%) 6,160 6,170 6,165 3 2,73 0,273 2,73 6,170 6,180 6,175 6 5,45 0,545 8,18 6,180 6,190 6,185 12 10,91 1,091 19,09 6,190 6,200 6,195 23 20,91 2,091 40,00 6,200 6,210 6,205 26 23,64 2,364 63,64 6,210 6,220 6,215 21 19,09 1,909 82,73 6,220 6,230 6,225 11 10,00 1,000 92,73 6,230 6,240 6,235 6 5,45 0,545 98,18 6,240 6,250 6,245 2 1,82 0,182 100,00

23 Rappresentazione dei dati
raggruppati in classi

24 Nell’esempio precedente per ognuna delle classi Gi è stata definita la probabilità pi che una misura appartenga all’intervallo della classe i-esima. In taluni casi particolari, ma estremamente importanti, è addirittura possibile ridurre tale informazione alla conoscenza di alcuni parametri significativi. ad esempio per la distribuzione gaussiana è sufficiente conoscere la media e la varianza.

25 La distribuzione di probabilità è l’insieme delle probabilità pi assegnate alle k classi.
La rappresentazione della distribuzione di probabilità può essere fatta o con l’istogramma delle frequenze o con il poligono delle frequenze, cioè mediante k punti discreti. In taluni casi particolari, ma estremamente importanti, è addirittura possibile ridurre tale informazione alla conoscenza di alcuni parametri significativi. ad esempio per la distribuzione gaussiana è sufficiente conoscere la media e la varianza.

26 Per variabili discrete valgono le seguenti relazioni:
x i K s t k 1 2 ; ( ) , ps,t rappresenta la probabilità cumulata delle classi da s a t ovvero del verificarsi che : x s t

27 10% = Percentuale di dati con valore compreso in questa classe
24 22 20 18 16 Frequenza_relativa [%] 14 12 10 8 6 4 2 6.165 6.245 valore centrale della classe

28 Poligono delle frequenze
24 22 20 18 16 14 Frequenza relativa [%] 12 10 8 6 4 2 6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 x [mm]

29 Un diagramma di tipo diverso si ottiene rappresentando le frequenze cumulate. In corrispondenza al limite superiore di ogni classe si riporta la frequenza relativa percentuale dei dati che hanno una misura inferiore a quel limite.

30 limite superiore della classe mm
6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 10 20 30 40 50 60 70 80 90 100 (Vedi pag. 22) Frequenze cumulate percentuali k = 4 % dati che assumono valori minori di xk limite superiore della classe mm

31 distribuzione di Gauss Frequenza relativa
6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 x (mm) 2 4 6 8 10 12 14 16 18 20 22 24 distribuzione di Gauss Frequenza relativa frequenza relativa

32 LE DISTRIBUZIONI DI PROBABILITA’
In taluni casi particolari, ma estremamente importanti, è addirittura possibile ridurre tale informazione alla conoscenza di alcuni parametri significativi. ad esempio per la distribuzione gaussiana è sufficiente conoscere la media e la varianza.

33 Variabili continue

34 Nell’esempio precedente se si considera la variabile altezza (prescindendo dalla sua misura) quello che si ottiene è una variabile continua. Ogni valore dell’altezza è possibile e la distribuzione di probabilità è rappresentata da una funzione continua.

35 LA DISTRIBUZIOINE GAUSSIANA
O NORMALE

36 mx=valore medio x=varianza
Il teorema limite centrale afferma che la distribuzione gaussiana permette di descrivere in maniera soddisfacente tutti quei fenomeni fisici caratterizzati dalla sovrapposizione di un elevato numero di effetti deboli indipendenti aventi loro natura statistica a media nulla. mx=valore medio x=varianza

37 f(x) 1 2 e      x   Distribuzione gaussiana (o normale) s f (x)
mx=valore medio x=varianza

38 Esempio: distribuzione della variabile somma
probabilità di aB = aA = bB = bA = 50% probabilità di aB + bB = 25% probabilità valore basso = 25% probabilità di aB + bA = 25% probabilità valore medio = 50% probabilità di aA + bB = 25% probabilità di aA + bA = 25% probabilità valore alto = 25% Distribuzione di ‘a’ Distribuzione di ‘a+b’ aB aA Distribuzione di ‘b’ bB bA

39 distribuzione di gauss Frequenza relativa
6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 x (mm) 2 4 6 8 10 12 14 16 18 20 22 24 distribuzione di gauss Frequenza relativa frequenza relativa

40 z = x - f(z) 1 2 e      Distribuzione normale standard
 f (z) Il valor medio è nullo e la varianza è pari ad 1 5

41 F(z) = p(zi z) Frequenze cumulate Grafico delle Frequenze cumulate
-3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 F (z) Analisi della normalità della distribuzione Il grafico di probabilità normale (GPN) 1 Grafico delle Frequenze cumulate Il valor medio è in corrispondenza del 50% di probabilità cumulata

42 F(z) = p(zi z) z1 z2 Utilità della funzione cumulativa: F(z2) F(z1)
0.9 0.8 F(z) = p(zi z) 0.7 0.6 0.5 0.4 0.3 F(z1) Analisi della normalità della distribuzione Il grafico di probabilità normale (GPN) 1 0.2 0.1 -3 -2 -1 1 2 3 z1 z2 p(zi [z1,z2]) = p(zi < z2) - p(zi < z1) p(zi [z1,z2]) = F(z2) - F(z1)

43     p x ( ) .      680 2 950 3 997 p zi     1 p zi F  
-3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 z p(zi<z) = F(z) p(zi >z) Distribuzione di probabilità simmetrica: p zi z 1 p zi F z 2 1 ( )) Valori notevoli spiegare il significato di questi valori Valori notevoli 5 p x ( ) . 680 2 950 3 997 z

44 ANALISI DEI DATI A CAMPIONE

45 I modelli di distribuzione statistica permettono di determinare la probabilità che ha una singola misura di avere un certo scarto dal valore medio.

46 Si pensi di estrarre dalla totalità delle misure (universo) alcuni campioni costituiti ciascuno da n elementi. Le medie dei campioni, considerate come variabili statistiche hanno una dispersione inferiore a quella dei singoli elementi.

47 Data una distribuzione qualsiasi di elementi con media m e scarto quadratico s, se si raggruppano gli elementi a caso in campioni sufficientemente numerosi, n= , la distribuzione delle medie segue quasi fedelmente la legge di distribuzione normale (di Gauss).

48 Inoltre la media di tali medie è ancora m e lo scarto quadratico si riduce a:
(x) n x … per questo motivo è sempre opportuno ripetere più volte una misura e prendere come migliore stima il valore medio

49 Esclusione dei valori meno probabili Il criterio di Chauvenet
Nel campo dell’analisi sperimentale è frequente trovare, in una serie di misure, qualche dato che non concorda con gli altri.

50 Il criterio di Chauvenet dà la possibilità di formulare un giudizio di accettazione dei dati in base a considerazioni di tipo statistico. Esclusione dei valori meno probabili Nel campo dell’analisi sperimentale à frequente trovare, in una serie di misure, qualche dato che non concorda con gli altri.

51 In una serie di n dati sperimentali, se alcuni valori presentano uno scostamento dal valore medio che ha probabilità di verificarsi inferiore di 1/(2n), allora quei valori devono essere scartati. Il criterio di Chauvenet Eslusione dei dati meno probabili

52 Si z CRITERIO DI CHAUVENET 1 p  1  2 n determinare z: Scarto ridotto
Il criterio di Chauvenet Implementazione Non si può ripetere la procdeura determinare z: z Si SCARTARE IL DATO

53 La spiegazione discende da semplici considerazioni sulla distribuzione:
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 z -z z -3 -2 -1 1 2 3 I valori appartenenti a questo intervallo esterno possono essere eliminati (si noti che la probabilità associata ai due semi-intervalli è effettivamente pari a 1/2n)

54 ANALISI DELLA NORMALITA’ DI UNA DISTRIBUZIONE
Il grafico di probabilità normale Il test del chi-quadro

55 IL GRAFICO DI PROBABILITÀ NORMALE
Si vuole verificare se la distribuzione dei dati sperimentali può essere rappresentata mediante la legge di Gauss o meno. Analisi della normalità della distribuzione Il criterio di Chauvenet richiede l’ipotesi di normalità, se non è verificata non può essere applicato.

56 grafico di probabilità normale
-3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.90 0.95 0.98 0.99 0.01 0.02 0.05 0.10 Analisi della normalità della distribuzione GPN procedura operativa 1 Cambio scala sulle ordinate Si ottiene una retta

57 1 0.99 0.98 0.95 0.90 Analisi della normalità della distribuzione GPN procedura operativa 2 Se invece della variabile normalizzata y si utilizzano i dati non normalizzati, la retta cambia al variare del valore medio e della varianza. 0.5 0.10 0.05 0.02 0.01

58 Distribuzione iper-normale
1 0.99 0.98 0.95 Analisi della normalità della distribuzione Distribuzione iper-normale 0.90 0.5 0.10 0.05 0.02 0.01

59 Distribuzione ipo-normale
1 0.99 0.98 0.95 Analisi della normalità della distribuzione Distribuzione ipo-normale 0.90 0.5 0.10 0.05 0.02 0.01

60 Distribuzione asimmetrica
1 0.99 0.98 0.95 Analisi della normalità della distribuzione Distribuzione asimmetrica 0.90 0.5 0.10 0.05 0.02 0.01

61 Distribuzione bimodale
1 0.99 0.98 0.95 Analisi della normalità della distribuzione Distribuzione bimodale 0.90 0.5 0.10 0.05 0.02 0.01

62 IL TEST DEL 2 Permette di valutare quantitativamente, su base statistica, se una serie di dati appartiene ad un tipo di distribuzione (non necessariamente normale).

63 IL TEST DEL 2  2 1 f j o a K K è il numero di classi in cui si sono suddivisi i dati foj è la frequenza assoluta osservata per la classe j faj è la frequenza assoluta aspettata in base alla distribuzione che si vuole provare

64       f j 1 K 1) Calcolare: a o PROCEDURA 2
Il test del 2 Implementazione

65 2) Definire il rischio d’errore e calcolare:
PROCEDURA 2) Definire il rischio d’errore e calcolare: Il test del 2 Implementazione

66    K 3 PROCEDURA 3) Calcolare il numero di gradi di libertà  :
Il test del 2 Implementazione

67 4) Dalle tabelle determinatre:
PROCEDURA 4) Dalle tabelle determinatre: Il test del 2 Implementazione

68 Se verificato, non vi sono ragioni statistiche,
PROCEDURA 5) Eseguire il test: Il test del 2 Implementazione Se verificato, non vi sono ragioni statistiche, per rifiutare il modello di distribuzione sottoposto a test.


Scaricare ppt "Elaborazione statistica di dati"

Presentazioni simili


Annunci Google