Analisi statistica dei dati sperimentali
Aleatorietà delle misure nuvola di valori misurazione dati di misura aleatori Contributi casuali Incidenti di misura Contributi sistematici Grandezze d’influenza e condizioni operative fasce di valori variabilità Non si ricava un singolo valore numerico deterministicamente individuabile, ma una nuvola di valori Analisi statistica dei dati sperimentali
Le norme richiedono di identificare un valore di misura ed una incertezza… Data la nuvola di valori, dunque, è necessario stimare un valore centrale e un indice di dispersione (ad esempio rispettivamente media e scarto tipo). Tuttavia è opportuno porre in atto procedure per individuare ed evidenziare la presenza di errori sistematici e di incidenti di misura! Al fine di agevolare il trattamento dei dati sarebbe opportuno procedere alla progettazione delle operazioni di sperimentazione (Design of Experiments - DOE); Tuttavia si procede di solito in maniera completamente casualizzata, ovvero considerando variazioni casuali di tutte le grandezze d’influenza (bisogna fare attenzione a non trascurare la presenza di eventuali effetti sistematici!!!); Sulla base dell’esperienza si può procedere controllando una o più grandezze d’influenza e considerando variazioni casuali di tutte le altre. Analisi statistica dei dati sperimentali
(scarto quadratico medio campionario) Esempio: si consideri il caso di una misura dimensionale eseguita da diversi operatori; si consideri che sia posta sotto controllo l’influenza dell’operatore sulle misure. Nuvola di valori! media+sqm media-sqm (media campionaria) (scarto quadratico medio campionario) Analisi statistica dei dati sperimentali
È possibile osservare come la grandezza d’influenza “operatore” agisca sui risultati delle misurazioni. Analisi statistica dei dati sperimentali
Spoglio dei dati e loro presentazione La presentazione dei dati sperimentali può avvenire: in forma tabulare tabella in forma grafica grafico (dotplot, istogramma, ecc.) Tabella Analisi statistica dei dati sperimentali
DotPlot Si tratta di descrivere la frequenza assoluta con cui ogni valore compare su di un opportuno asse. La minima suddivisione sull’asse deve coincidere con la risoluzione secondo cui i dati si presentano. Ritornando all’esempio: se i dati sono in millimetri, consideriamo, per ognuno l’eccesso (delta) rispetto al valore 10.0000 mm; tale valore, moltiplicato per 1000 dà un’indicazione in micron. La tabella diventa dunque: Analisi statistica dei dati sperimentali
Ad esempio il valore 2.9 mm (10.0029 mm) compare 4 volte! I valori da considerarsi (in micron) per costruire l’asse delle ascisse vanno da 1 mm a 10 mm. Di seguito il DOTPLOT... Il numero di crocette per ogni singola ascissa coincide con il numero di volte in cui ogni singolo valore compare. Ad esempio il valore 2.9 mm (10.0029 mm) compare 4 volte! Analisi statistica dei dati sperimentali
Istogramma I dati possono essere raggruppati in classi. L’intervallo coperto dai dati sperimentali viene suddiviso in sottointervalli, ognuno dei quali costituisce una classe. Limite di classe (superiore ed inferiore): valori che definiscono una classe. Ampiezza di classe: ampiezza della classe. Centro di classe: semisomma dei limiti di classe (punto medio della classe). Raggruppando tutti i dati nelle diverse classi si ottiene per ognuna di queste un valore di frequenza assoluta (fa), ovvero un valore indicativo del numero di risultati numerici che sono compresi entro i limiti che la definiscono. A partire dai valori di frequenza assoluta è possibile, per ogni classe, calcolare la frequenza relativa (fr)(= probabilità secondo la definizione frequentistica) Analisi statistica dei dati sperimentali
Il numero opportuno di classi può essere ricavato dalla seguente relazione empirica: dove n è il numero di dati valutati. È buona norma che ogni classe contenga almeno quattro dati! Dunque di solito si agisce modificando l’ampiezza delle classi (accorpandole eventualmente) per rispettare tale condizione. L'istogramma è un diagramma costituito da un numero di barre rettangolari coincidente con il numero di classi considerato; l’area di ogni rettangolo è proporzionale alla probabilità (calcolata a partire dai dati sperimentali), che un dato cada nella specifica classe corrispondente. Analisi statistica dei dati sperimentali
Ritornando all’esempio… I dati considerati sono n = 50 m = 1 + (10/3)Log10 (50) = 6.66 m = 7 Possiamo costruire le sette classi tra i valori 10.0000 e 10.0100… quindi: In questo caso, essendo le ampiezze delle classi uguali, l'istogramma coincide con il diagramma a barre (chiamato erroneamente istogramma in Excel!!!) Analisi statistica dei dati sperimentali
Accorpando le ultime due classi si ottiene: Analisi statistica dei dati sperimentali
Analisi statistica dei dati sperimentali Legenda: - fr frequenza relativa - fa frequenza assoluta - r densità di frequenza altezza della colonna rettangolare relativa alla i-esima classe di ampiezza ampi Analisi statistica dei dati sperimentali
Tendenza centrale e dispersione Come precedentemente accennato è possibile utilizzare come stimatori di tendenza centrale e di dispersione rispettivamente la media e la deviazione standard campionarie (le cui definizioni sono riportate al lucido 4). Si possono tuttavia utilizzare anche altri indicatori, sia per la tendenza centrale, sia per la dispersione. Tendenza centrale Oltre alla media campionaria, si possono utilizzare moda o mediana. Mediana: è il valore centrale fra i dati sperimentali disposti in maniera ordinata. Moda: è il valore che compare con frequenza maggiore. Normalmente si utilizza la media campionaria, perché meglio inquadrata in termini matematici; tuttavia è più sensibile agli incidenti di misura rispetto alla mediana o alla moda. Analisi statistica dei dati sperimentali
Dispersione In alternativa alla deviazione standard campionaria è possibile utilizzare il range (differenza fra il valore massimo ed il minimo ottenuti) come indicatore di dispersione. Sia il range sia la varianza campionaria dipendono fortemente dal numero di dati che costituiscono il campione esaminato. In alternativa è possibile definire la variabilità dei dati (dispersione) attraverso la definizione di campi di probabilità: - si possono definire quattro classi, ognuna delle quali contenga il 25% dei dati (quartili) - si possono definire dieci classi, ognuna delle quali contenga il 10% dei dati (decili) - si possono definire cento classi, ognuna delle quali contenga l’ 1% dei dati (centili) Analisi statistica dei dati sperimentali
I quartili, decili, centili sono gli estremi superiori delle classi così definite. La definizione di questi indici di dispersione dipende molto dai valori assunti dai dati di estremità… Una valutazione più robusta della dispersione si può ottenere calcolando la differenza fra il terzo ed il primo quartile. Un modo abituale per indicare tendenza centrale e dispersione consiste nell’assegnazione di cinque valori: minimo, primo quartile, mediana, terzo quartile, massimo. Il diagramma corrispondente è detto BOXPLOT. min 1Q mediana 3Q max Analisi statistica dei dati sperimentali
Inferenza statistica POPOLAZIONE CAMPIONE STIME MISURANDO LETTURE Campionamento Inferenza (Parametri che definiscono la distribuzione della popolazione) Informazioni sulla catena di misura e sulle grandezze d’influenza MISURANDO LETTURE STIME Misurazione Analisi (Definizione di intervalli in cui ragionevolmente cadono i valori da attribuirsi al misurando come misura INCERTEZZA) Analisi statistica dei dati sperimentali
Intervalli fiduciari per la media In generale, data una popolazione, estratto a partire da essa un campione, si può costruire un intervallo sulla base dei dati campionari, entro il quale, con un prefissato livello di probabilità (fiducia), si può ritenere che un parametro, descrittivo della distribuzione della popolazione (media), cada. Si parla di stima per intervalli della media; infatti, anche la media campionaria può essere considerata una stima della media della popolazione, tuttavia si tratta di un unico valore e si parla dunque di stima puntuale; costruendo un intervallo, si definisce invece una fascia di valori e si parla dunque di stima per intervalli. L’intervallo fiduciario per la media è dato dalla seguente espressione (con m media della popolazione distribuita normalmente): il livello di fiducia associato a tale intervallo è (1-)%. m indica la media campionaria, s la deviazione standard campionaria, n la numerosità del campione. Analisi statistica dei dati sperimentali
Nel caso quanto visto venga applicato alle misure si ha: se la valutazione sperimentale è stata condotta con cura in modo tale da evitare effetti sistematici ed incidenti di misura, allora la popolazione delle possibili misure si può ritenere distribuita normalmente, in quanto agiscono solo effetti di tipo casuale; per la media di tale popolazione si può dunque effettuare una stima per intervalli secondo la relazione riportata in precedenza; l’intervallo fiduciario a livello di fiducia (1-)% può essere anche scritto nella forma seguente: tendenza centrale dispersione Analisi statistica dei dati sperimentali
Assumendo che il “valore vero” attribuibile al misurando come misura esista, esso può essere considerato coincidente con ; la misura è ottenibile attraverso la stima per intervalli vista ed è dunque data da: dove: m rappresenta il valore di misura, k·u è l’incertezza di misura associata. Per definire la misura è necessario corredare con la opportuna unità di misura. Quanto detto vale con il livello di fiducia (1-)% prestabilito. Analisi statistica dei dati sperimentali
Procedura di analisi dei dati sperimentali I dati vengono raccolti e presentati in forma tabulare oppure, preferibilmente, grafica (attraverso un istogramma); a partire dai dati sperimentali è possibile stimare una media campionaria ed una deviazione standard campionaria; la media campionaria e la deviazione standard campionaria servono a stimare media e deviazione standard della popolazione dei possibili valori di misura, che, se si considera l’assenza di incidenti di misura e di effetti sistematici, deve essere normale. Analisi statistica dei dati sperimentali
Il discostarsi della distribuzione dei dati sperimentali, rappresentata dall’istogramma, dalla distribuzione teorica (la normale costruita su media e deviazione standard campionarie) indica la presenza di incidenti di misura ed effetti sistematici, che devono essere localizzati ed eliminati. Il processo è iterativo perché la media e la varianza campionarie dipendono dai valori che costituiscono il set di dati analizzato (che risulta anche dalla presenza di effetti incidentali e sistematici). Risultati sperimentali Rappresentazione su istogramma Valutazione di tendenza centrale e dispersione Definizione dei parametri della distribuzione teorica normale associata Individuazione degli incidenti di misura e loro esclusione Individuazione degli effetti sistematici e loro correzione Distribuzione normale??? Set di dati su cui operare... NO SI Analisi degli effetti sistematici Principi di esclusione Media e varianza campionarie Analisi statistica dei dati sperimentali
Controllo di normalità (di una distribuzione sperimentale) Test del c2 - Si definisce un livello di fiducia (1-)% a cui accettare l’ipotesi che i dati sperimentali raccolti siano distribuiti normalmente (la popolazione delle possibili misure sia distribuita normalmente). - Si può definire una variabile casuale W secondo la seguente relazione: dove: sono state considerate n classi nella quali i dati sono raggruppati; fsi rappresenta la frequenza assoluta con cui i dati sperimentali cadono nella i-esima classe; fti rappresenta la frequenza assoluta prevedibile teoricamente con cui i dati cadono nella i-esima classe. - W è distribuito secondo la distribuzione c2 di Pearson. Analisi statistica dei dati sperimentali
- Come detto, i dati teoricamente dovrebbero essere distribuiti normalmente secondo una distribuzione normale avente media stimata dalla media campionaria e varianza stimata dalla varianza campionaria, stimate a partire dai dati sperimentali. Nota tale distribuzione è possibile calcolare per ogni classe i-esima il valore di frequenza assoluta attesa fti e dunque il termine i-esimo - La somma dei contributi i-esimi relativi alle m classi fornisce il valore di W. Si deve verificare che tale valore sia compreso tra due limiti dati per una variabile casuale distribuita secondo la distribuzione di Pearson che descrivano un campo con probabilità associata pari a (1-)%. - La distribuzione di Pearson è parametrizzata rispetto al numero di gradi di libertà che si considerano. Ai fini del test tale valore è dato dalla relazione: Numero di parametri della distribuzione teorica (normale) stimati a partire dai dati sperimentali: media e varianza k=2. Numero di classi Analisi statistica dei dati sperimentali
- Entrando nella tabella della distribuzione di Pearson si ricavano i due valori limite: curva per n g.d.l. Analisi statistica dei dati sperimentali
- Si deve verificare che: - Se la relazione sopra è verificata, il test dà esito positivo e, dunque, con un livello di fiducia pari a (1-)%, si può accettare che la distribuzione dei dati sperimentali sia uniforme, ovvero che non vi siano dati affetti da errori incidentali e sistematici. Equivalentemente si corre un rischio pari a % che l’ipotesi di normalità per la distribuzione dei dati non valga. - Si può applicare il test al caso precedentemente visto... Analisi statistica dei dati sperimentali
Il test risulta verificato con un livello di fiducia del 95% si può ritenere che i dati siano distribuiti normalmente e dunque che non vi siano sostanziali incidenti di misura ed effetti sistematici. Analisi statistica dei dati sperimentali
Grafico di probabilità normale Si tratta di un grafico avente in ascissa una coordinata indicativa dei valori assunti dai dati sperimentali ad in ordinata i corrispondenti valori di probabilità cumulata. Il grafico ha l’asse delle ordinate opportunamente distorto in modo tale da far sì che il diagramma della cumulata della distribuzione normale non sia una curva ma una retta (che risulta facilmente riconoscibile). Riportando i dati sperimentali su tale diagramma, nel caso in cui tali dati possano essere ritenuti distribuiti normalmente, essi giaceranno su tale retta. Operativamente, mediante un foglio di calcolo (Excel): - i dati vengono ordinati progressivamente in ordine crescente (ad ognuno viene assegnato un indice i); - ad ogni dato xi corrisponde una probabilità Psi, ottenibile secondo la relazione Analisi statistica dei dati sperimentali
Ritornando al caso precedentemente esaminato... - ad ogni valore di probabilità sperimentale Psi corrisponde un valore della variabile normale standardizzata z, che chiamiamo zsi; - per ogni dato xi si calcola il corrispondente valore teorico della variabile normale standardizzata z: con m e s rispettivamente media e deviazione standard campionaria; ad ogni valore xi corrisponde una probabilità teorica Pti; - su di un grafico si riportano i valori di zs e di zt in funzione di x; i punti (x,zt) descrivono una retta, rappresentativa dell’andamento teorico del grafico di probabilità normale; i punti (x,zs) rappresentano l’andamento dei dati sperimentali: più tali punti approssimano l’andamento della suddetta retta più la distribuzione sperimentale è approssimabile con una distribuzione normale. Ritornando al caso precedentemente esaminato... Analisi statistica dei dati sperimentali
Analisi statistica dei dati sperimentali
Principi di esclusione Al fine di eliminare i dati che provengono da incidenti di misura si impiegano i principi di esclusione. Gli incidenti di misura sono eventi rari, tuttavia non tutti gli eventi rari sono incidenti di misura: bisogna escludere solo i dati per i quali si riconosce la causa incidentale che li ha prodotti. I valori legati al verificarsi di eventi rari intrinsecamente presente e non attribuibili ad incidenti non andrebbero esclusi. Boxplot min 1Q mediana 3Q max IQR Analisi statistica dei dati sperimentali
- 1Q: valore superiore nel primo quartile; - 3Q: valore superiore nel terzo quartile; - max: valore massimo nella regione limitata superiormente da 3Q+1.5·IQR; - min: valore minimo nella regione limitata inferiormente da 1Q-1.5·IQR; I valori che cadono al di fuori della zona compresa fra min e max si dicono outliers (=valore erratico) e sono frutto di eventi rari. Esistono due tipi di outliers: sospetti e altamente sospetti. min 1Q me 3Q max IQR 3 IQR 1.5 IQR Outliers sospetti zona degli outliers altamente sospetti Outliers altamente sospetti Analisi statistica dei dati sperimentali
(1Q-1.5IQR): zLIMINF-1.5= -2.698 (3Q+1.5IQR): zLIMSUP+1.5= 2.698 La definizione dei limiti sopra citati può essere spiegata secondo quanto segue… - se i dati sono distribuiti normalmente (ovvero se non vi fossero valori ottenuti come conseguenze di incidenti) si avrebbe, per una variabile normale standard z: 1Q: z1Q= -0.6745 2Q: z2Q= 0.6745 IQR = 1.349 (1Q-1.5IQR): zLIMINF-1.5= -2.698 (3Q+1.5IQR): zLIMSUP+1.5= 2.698 (1Q-3IQR): zLIMINF-3= -4.721 (3Q+3IQR): zLIMSUP+3= 4.721 - quindi: P (zLIMINF-1.5<z zLIMSUP+1.5) = 99.3% POUTLIERS SOSPETTI= 0.7% P (zLIMINF-3<z zLIMSUP+3) = 99.9997% POUTLIERS SOSPETTI= 0.0003% Analisi statistica dei dati sperimentali
Principio di esclusione di Chauvenet Risponde alla necessità di avere un principio che ponga dei limiti dell’esclusione al variare del numero di dati trattati. Infatti, maggiore è il numero di prove effettuate e maggiore è la probabilità che si verifichino eventi rari. - Convenzionalmente si impone che la probabilità che si verifichi un evento raro in n prove (misure) è (dalla binomiale): ; - Si impone che P(1) sia pari convenzionalmente al 50% , cioè che vi sia una probabilità pari a 0.5 di ottenere un evento raro su n prove; - se si considerano due limiti, uno inferiore ed uno superiore e, dunque, due regioni a cui competono eventi rari, allora si ha: - si individuano dunque, ipotizzando che la distribuzione debba essere normale, i due limiti impiegati per l’esclusione (mediante tabella della normale standardizzata). Analisi statistica dei dati sperimentali
Nel nostro caso… A tale valore di probabilità corrispondono i seguenti valori per la variabile normale standardizzata: In corrispondenza di tali valori si ricavano i corrispondenti valori di x: Analisi statistica dei dati sperimentali
Analisi statistica dei dati sperimentali
a - si rieseguono le misure; Nel caso vengano identificati valori che siano attribuibili ad incidenti di misura si deve procedere nei modi seguenti (in ordine di preferenza): a - si rieseguono le misure; b - si eliminano i dati che provengono da incidenti di misura lasciando le corrispondenti celle (nei fogli di calcolo) vuote; c - si sostituiscono i valori riconosciuti come incidentali con il valore della media campionaria che si ottiene ad esclusione effettuata. Analisi statistica dei dati sperimentali
Bibliografia G. Barbato, Misurare per decidere, Progetto Leonardo, Bologna (Capitolo 6) Consultazione: G.Vicario - R.Levi, Calcolo delle probabilità e statistica per ingegneri, Progetto Leonardo, Bologna (Capitoli 4, 7, 8)