Qualità dei dati Fabio Murena
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi) CAMPIONAMENTO può essere spaziale o temporale CAMPIONAMENTO può fornire data set UNIVARIATO o MULTIVARIATO (una misura per campione o più misure per campione)
DEFINIZIONE DI POPOLAZIONE E SAMPLE TERRENO n CAMPIONI DATI POPOLAZIONE SAMPLE (campione) SET di DATI OBIETTIVO: Dal set di dati vogliamo informazioni certe sulla popolazione PROBLEMI: La dimensione del sample è sempre inferiore alla popolazione I dati ottenuti sono affetti da errori o margini di incertezza NON ELIMINABILI
Il risultato di un’analisi chimica è un’informazione costituita da: • valore numerico • unità di misura incertezza …. T,P e tempo di mediazione per analisi gas
Variabili aleatorie PROBLEMA: da un campione otteniamo n dati analitici diversi tra loro qual’è quello vero? che relazione c’è tra i valori misurati e quello vero? Le misure che facciamo sono VARIABILI ALEATORIE caratterizzate da: INTERVALLO DI VARIAZIONE DISTRIBUZIONE DI PROBABILITA’ Noi possiamo solo: stimare il valore “vero” di queste variabili stimare la probabilità che il valore vero sia all’interno di un certo intervallo descrivere in modo statistico il data-set verificare delle ipotesi
PARAMETRI STATISTICI MEDIA MEDIANA (50° percentile) Valore centrale di una serie di n numeri ordinata in modo crescente o decrescente Se n è pari bisogna definire il criterio di valutazione (valore medio, inferiore o maggiore)
Tutti i valori saranno riportati in un elenco in ordine crescente: PERCENTILE Il calcolo dell‘n.esimo percentile deve essere effettuato a partire dai valori effettivamente misurati. Tutti i valori saranno riportati in un elenco in ordine crescente: X1 < o = X2 < o = X3 < o =.. < o =Xk < o =.. < o = XN-1 < o = XN L'n.esimo percentile è il valore dell'elemento di rango k, per il quale k viene calcolato per mezzo della formula seguente: k = (q * N) q = n/100 N = numero dei valori effettivamente misurati. Il valore di (q * N) viene arrotondato al numero intero più vicino.
PARAMETRI STATISTICI DEVIAZIONE STANDARD VARIANZA una misura della variabilità dei valori assunti dalla variabile, nello specifico, di quanto essi si discostino quadraticamente da un valore di riferimento (media aritmetica o valore atteso) La deviazione standard (scarto quadratico medio o scarto tipo) è un indice di dispersione statistico, vale a dire una stima della variabilità di una popolazione di dati o di una variabile casuale intorno ad un valore di riferimento (valore medio)
CENNI DI TEORIA DEGLI ERRORI DEFINIZIONE DI ERRORE : L’errore è lo scostamento tra la misura ed il valore vero ERRORE = MISURA - VALORE VERO CLASSIFICAZIONE ERRORI grossolani (da non fare!) sistematici casuali La teoria statistica degli errori si occupa solo degli errori sistematici e casuali
Quindi possono essere eliminati o almeno compensati o quantificati. ERRORI SISTEMATICI () Rappresentano una tendenza deterministica a SOVRASTIMARE o SOTTOSTIMARE il valore vero è la media delle misure q è il valore vero Gli errori sistematici hanno cause ben precise che possono anche essere individuate e rimosse (strumento non calibrato, insufficiente purezza dei reagenti utilizzati ...). Quindi possono essere eliminati o almeno compensati o quantificati.
ERRORI CASUALI () L’errore casuale è’ dato dalla somma di tutte le IMPREVEDIBILI variazioni nella esecuzione delle varie operazioni analitiche che determinano un certo scostamento della misura dal valore medio delle misure stesse X è la singola misura è la media delle misure La loro presenza è messa in evidenza dal fatto che, se per uno stesso campione si ripete più volte e con lo stesso metodo la misura di un certo elemento, si ottengono in genere risultati diversi
E’ dato dalla somma degli errori sistematici e casuali ERRORE TOTALE E’ dato dalla somma degli errori sistematici e casuali Totale = Sistematico + Casuale X è la singola misura q è il valore vero è la media delle misure
Esattezza (Accuratezza) e Ripetibilità (Precisione) ESATTEZZA (ACCURATEZZA) = scostamento del valore medio delle misure dal valore esatto (dipende dalla media quindi dall’ errore sistematico) RIPETIBILITA’ (PRECISIONE) = scostamento dei dati dal valore medio (dipende dalla deviazione standard quindi dagli errori casuali)
Esempio Bersaglio Misura accurata e precisa ESATTEZZA o ACCURATEZZA Misura né accurata né precisa PRECISIONE o RIPETIBILITA’
Sistematico e casuale No sistematico Si casuale Sistematico No casuale No sistematico No casuale
INCERTEZZA l'incertezza di misura è la stima dell'escursione dei valori entro cui si suppone che cada il valore vero (del misurando); ha le dimensioni di uno scarto quadratico medio La definizione formale dell’incertezza è: “parametro, associato al risultato di una misurazione, che caratterizza la dispersione dei valori ragionevolmente attribuibili al misurando”. Pertanto, mentre l’errore è un singolo valore, l’incertezza rappresenta un intervallo di valori che, ad un certo livello di fiducia stabilito, possono essere attribuiti al misurando. La variabilità delle misure viene espressa attraverso la deviazione standard come La incertezza viene espressa in termini relativi come oppure in termini percentuali
Espressione dei dati Bilancia digitale con precisione di ± 0.1 mg Si riportano le cifre significative note fino alla prima cifra incerta indicando l’intervallo di incertezza. ESEMPI: Bilancia digitale con precisione di ± 0.1 mg Misura: 4.0057 ± 0.0001 g Bilancia digitale con precisione di ± 0.02 g Misura 4.00 ± 0.02 g Potenziometro digitale con precisione di ± 1mV Misura 434 ± 1 mV
MODELLI DI VARIABILI ALEATORIE Utilizzati per interpretare fenomeni Statistica descrittiva Utilizzati per effettuare inferenze ottenere informazioni su nature e/o valori dei parametri delle v.a. Gaussiana Chi-quadrato t-Student Fisher
PROBABILITA’ E FUNZIONI DI DISTRIBUZIONE DI PROBABILITA’ Data una v.a. X si definisce la funzione distribuzione cumulata (Cdf) F(x) che rappresenta la probabilità che la v.a. assuma un valore inferiore a x Risulta e Se la v.a. è continua per esprimere la probabilità che la v.a. assuma valori prossimi ad un determinato x si definisce la funzione densità di probabilità (pdf)
PROBABILITA’ E FUNZIONI DI DISTRIBUZIONE DI PROBABILITA’ Dalle definizioni precedenti risulta:
Distribuzione normale o Gaussiana E’ il modello di v.a. più adoperato. Può essere definita come: modello interpretativo degli errori o scostamenti da un valore medio Introducendo la v.a. Gaussiana standard (o ridotta) che esprime gli errori di misura come multipli della loro ampiezza e ipotizzando che: sia nulla la media degli errori la pdf degli errori sia simmetrica e tenda a zero per +/- infinito la pdf abbia un unico massimo in corrispondenza del valore nullo di U si ottiene la pdf:
che rispetto alla v.a. z diventa In caso di elaborazioni di valori discreti si può utilizzare la espressione: Dove Y è il n° di osservazioni o valori all’interno di un certo intervallo di ampiezza i ed n è il n° totale di osservazioni
Distribuzione gaussiana
Coda destra gaussiana standard In tabella sono riportati i valori di probabilità (a) che f(x)>x in corrispondenza di xs L’area sottesa tra –x e x è pari a 1-2a z=s area tra –1 e +1 =0.68 z=2s area tra –2 e +2 =0.95 z=3s area tra –3 e +3 =0.997
Modello di v.a. Log-normale Se la pdf non può che essere asimmetrica (ad esempio una variabile che assume solo valori positivi) cade una delle ipotesi della gaussiana. Si definisce una distribuzione Log-normale: una v.a. Y tale che il suo logaritmo è una v.a. Normale z di parametri e La sua p.d.f. è
Modello di v.a. Log-normale
Esercizio par. 10.8 distribuzione Log-normale Abbiamo la seguente distribuzione della concentrazione di un campione (curva a istogramma) molto asimmetrica. Se proviamo a modellarla assumendo una distribuzione normale otteniamo la curva in blu N° di osservazioni
Esercizio par. 10.8 distribuzione Log-normale Se facciamo il lnC otteniamo una distribuzione più vicina a una normale N° di osservazioni
Distribuzione della v.a. X=ln (C) Con il modello gaussiano applicato alla variabile X = ln(C) Si ottengono i valori media e deviazione standard Da cui si ha
Esercizio par. 10.8 distribuzione Log-normale La pdf utilizzando il modello di variabile aleatoria lognormale è riportata in figura (curva rossa) Come si osserva il fitting è migliore di quello ottenuto assumendo come modello una distribuzione normale (curva blu) I parametri sono: xg = 11.46 g = 2.43 il 68.3% dei dati si trova tra 4.72 e 27.83
INTERVALLO DI CONFIDENZA (IC o LC) E’ un intervallo di valori all’interno del quale il valore reale si trova con una certa probabilità a questo scopo si usano diversi modelli di variabili aleatorie Per calcolare IC di Si usa Media t-Student Varianza Chi-quadrato Rapporto di varianze Fisher
IC della media dove: t = variabile t-Student = valore medio stimato s = deviazione standard stimata n = gradi di libertà (numero di valori - 1) Il valore del parametro statistico t si ricava da tabelle in funzione di n e dell’intervallo desiderato (ad es. 95% o 90% etc.). Al crescere del numero di valori (n-1) l’ampiezza dell’intervallo diminuisce, sia perchè cresce il denominatore sia perchè diminuisce il valore di t
Esempio: Calcolare l’intervallo di confidenza (95%)per una serie di analisi di BOD di un campione di acqua DATI: Numero di misure 11 C media = 16 mg/L s = 8 mg/L CALCOLI: Numero gradi di libertà = 11-1 = 10 t student = 2.228 N.B. con 80 misure assumendo che la deviazione standard non cambi
IC per una variabile Log-normale Per una v.a. Log- normale l’intervallo di confidenza si calcola come IC del rapporto di varianze Si utilizza la distribuzione di Fisher F: Definito l’IC si legge dalla tabella in funzione dei gradi di libertà con cui sono state calcolate le 2 varianze il valore del loro rapporto F.
TEST DELLE IPOTESI In statistica i test verificano in termini probabilistici la validità di una ipotesi detta ipotesi nulla (o ipotesi zero indicata con H0) se l’ipotesi viene rifiutata si accetta l’ipotesi alternativa (H1) I problemi che si intendono risolvere sono del tipo: se la differenza che si registra tra la media calcolata ed il valore “vero” è significativa o meno. se la differenza che si registra tra due valori medi è significativa o meno. Con metodi statistici si verifica se l’ipotesi è: non respinta (accettabile) oppure respinta
Confronto tra media e valore reale Si intende verificare se la differenza tra valore medio e valore reale è significativa o meno. Si valuta La differenza è significativa se: La differenza non è significativa se:
Confronto tra due medie verifica del risultato di due diverse metodiche di analisi sullo stesso campione verifica di due diversi set di dati (dati di due stazioni di monitoraggio relative allo stesso inquinante) Si vuole verificare se la differenza dei due valori medi è statisticamente significativa (ipotesi nulla) o meno (ipotesi alternativa). Si valuta La differenza è significativa se: (altrimenti non è significativa)