Corso di Chimica Analitica I

Slides:



Advertisements
Presentazioni simili
Trattamento statistico dei dati analitici
Advertisements

8) GLI INTERVALLI DI CONFIDENZA
Le distribuzioni di probabilità continue
Distribuzione Normale o Curva di Gauss
Intervalli di confidenza
Proprietà degli stimatori
Presupposti alla lezione
Affidabilita` di un’analisi. Specificita`:
Lez. 3 - Gli Indici di VARIABILITA’
ERRORI L'errore è presente in ogni metodo analitico e può essere dovuto a cause diverse. L’errore può essere definito come la differenza tra il valore.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
DIFFERENZA TRA LE MEDIE
Corso di biomatematica lezione 5: propagazione degli errori
Corso di biomatematica lezione 6: la funzione c2
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Esercizi x1=m-ts x2=m+ts
Valutazione della stima: gli intervalli di confidenza
Cenni di teoria degli errori
Parte I (introduzione) Taratura degli strumenti (cfr: UNI 4546) Si parla di taratura in regime statico se lo strumento verrà utilizzato soltanto per misurare.
incertezza di misura prove chimiche
Linee guida per la Chimica Analitica Statistica chemiometrica
Propagazione degli errori
METODI E CONTROLLI STATISTICI DI PROCESSO
Quale valore dobbiamo assumere come misura di una grandezza?
Grandezze e Misure.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Le distribuzioni campionarie
La ricerca delle relazioni tra fenomeni
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
TRATTAMENTO DEI DATI ANALITICI
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
STATISTICA CHEMIOMETRICA
Corso di Chimica Analitica
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
L’ERRORE NELL’ANALISI QUANTITATIVA
Media aritmetica o media ( )
La verifica d’ipotesi Docente Dott. Nappo Daniela
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Il residuo nella predizione
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
Rappresentazione dell'informazione
Elementi di statistica Le cifre significative
Intervalli di confidenza
Elementi di statistica La stima del valore vero
Elaborazione statistica di dati
6. LIMITI Definizione - Funzioni continue - Calcolo dei limiti
ANALISI E INTERPRETAZIONE DATI
Riportare il segnale sulla scala Y
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Problemi analitici quantitativi I metodi chimico-analitici strumentali hanno lo scopo di quantificare o di determinare proprietà chimico-fisiche di uno.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Corso PAS Misure, strumenti ed Errori di misura Didattica del Laboratorio di Fisica F. Garufi 2014.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Analisi delle osservazioni
Trattamento dei dati sperimentali
Gli Indici di VARIABILITA’
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
Transcript della presentazione:

Corso di Chimica Analitica I Obiettivi formativi Il corso di Chimica Analitica per le lauree in Tecniche Erboristiche e in Tossicologia dell’ambiente fornisce allo studente le nozioni fondamentali di chimica analitica e gli strumenti per poter valutare criticamente (anche per via statistica e chemiometrica) i risultati sperimentali ottenuti mediante le metodiche analitiche. La parte sperimentale del corso consente di acquisire la manualità necessaria e la conoscenza delle tecniche analitiche di base per poter operare in un laboratorio. Il programma del corso consente inoltre di acquisire le conoscenze culturali necessarie per affrontare i corsi degli anni seguenti, in particolare quelli dei laboratori. Prerequisiti Si presuppone che siano noti i fondamenti dei seguenti argomenti: Chimica generale: Reazioni chimiche, Classificazione delle reazioni chimiche, Reazioni di ossidoriduzione, Bilanciamento delle reazioni di ossidoriduzione, Soluzioni, Elettroliti e non-elettroliti, Solubilità, Processo di solubilizzazione, Attività e concentrazione, Concentrazione delle soluzioni. Definizione di acidi e basi, Sistemi acido-base in acqua, Autoprotolisi dell'acqua, Costanti acida e basica. Contenuto del corso Statistica per la chimica analitica. Precisione e accuratezza. Tipi di errori. Distribuzione normale. Curva gaussiana e probabilità. Propagazione dell’errore. Cifre significative e arrotondamenti. Espressione degli intervalli di fiducia. Test statistici di significatività. Metodo dei minimi quadrati. Il processo analitico. Campione e campionamento. Trattamento del campione. Calibrazione. Effetto matrice. Caratteristiche fondamentali di un metodo analitico. Calcoli applicati alla chimica analitica, equilibri chimici in soluzione, risoluzione di problemi di equilibrio per sistemi complessi. Titolazioni, teoria delle titolazioni di neutralizzazione, curve di titolazione per sistemi acido-base complessi, applicazioni delle titolazioni di neutralizzazione. Titolazioni di precipitazione, titolazioni con formazione di complessi. Testo di riferimento Chimica Analitica, una introduzione. D.A. Skoog, D.M. West, F.J. Holler. Edizioni EdiSES Orario ore 10-13. Aule ex-Lolli. Laboratorio: Istituto Alberghetti Ricevimento Su appuntamento (Tel. 051 2099581/85; e-mail: andrea.zattoni@unibo.it): Lunedì - Venerdì dalle 9.30 alle 18.30. Dipartimento di Chimica "G. Ciamician" - via F. Selmi 2, Bologna

L’ERRORE NELL’ANALISI QUANTITATIVA Ogni misura quantitativa è soggetta ad un errore sperimentale e di conseguenza esiste una incertezza nel risultato che non può mai essere completamente eliminata: siccome un dato quantitativo non ha valore se non è accompagnato da una stima dell’errore associato, è necessario valutare questa incertezza. Poiché un singolo risultato non fornisce informazioni sull’incertezza, un’analisi viene normalmente effettuata su di una serie di replicati (aliquote di uno stesso campione analizzate esattamente nello stesso modo). Dall’insieme dei replicati si ottengono: Un valore “migliore” per il risultato dell’analisi, rappresentato dalla media aritmetica dei replicati: Una misura dell’incertezza legata al risultato dell’analisi, rappresentata dalla dispersione dei dati e generalmente espressa attraverso parametri quali la deviazione standard, la varianza o il coefficiente di variazione.

PRECISIONE La precisione (o riproducibilità) di una misura esprime il grado di concordanza fra misure ripetute di uno stesso campione – ovvero la dispersione dei dati rispetto al loro valore medio. Dal punto di vista sperimentale, la sua determinazione è abbastanza semplice poiché una stima della precisione di un’analisi si può ottenere direttamente dalla misura dei replicati. La precisione di una misura sperimentale è sempre positiva e viene espressa da: Deviazione standard del campione Varianza Coefficiente di variazione (in genere preferito in quanto permette di avere una indicazione diretta dell’importanza dell’incertezza rispetto al valore della misura) s2

ACCURATEZZA L’accuratezza di una misura indica la vicinanza del valore ottenuto (generalmente espresso attraverso la media) al valore vero. Dal punto di vista sperimentale, la determinazione dell’accuratezza di una misura non è sempre facile, poiché il valore “vero” della grandezza da misurare potrebbe non essere noto. In tal caso è necessario utilizzare un valore “accettato” o usare altri criteri di valutazione. L’accuratezza di una misura viene espressa in termini assoluti o relativi attraverso l’errore (il segno dell’errore indica se si ha una sovrastima od una sottostima): Errore (o errore assoluto) Errore relativo (anche in questo caso il dato relativo permette di avere maggiori informazioni, poiché indica direttamente l’importanza dell’errore). Altre unità comunemente usate per l’errore relativo sono le parti per mille o le parti per milione (ppm)

PRECISIONE vs. ACCURATEZZA Precisione ed accuratezza sono indipendenti fra di loro; misure precise possono essere poco accurate e viceversa. Elevate precisione ed accuratezza Bassa precisione ed accuratezza Elevata precisione, bassa accuratezza Bassa precisione, elevata accuratezza

TIPI DI ERRORE Gli errori sperimentali possono essere suddivisi in grossolani, sistematici e casuali. Questi errori hanno spesso origini diverse fra di loro → è fondamentale identificare il tipo di errore in una misura poiché da esso dipende il trattamento del dato ottenuto. L’errore grossolano deriva da occasionali errori macroscopici compiuti durante la procedura analitica e non è trattabile in modo sistematico. Spesso è molto evidente ed esistono criteri statistici per stabilire se un dato apparentemente aberrante all’interno di una serie di misure (“outlier”) sia dovuto o non ad un errore di questo tipo. L’errore sistematico (o determinato) è unidirezionale e fisso per una serie di misure effettuate nelle stesse condizioni sperimentali ed influenza l’accuratezza di una misura. Almeno in linea di principio, esso può essere corretto (correzioni teoriche, calibrazione dello strumento, uso di standard o di un bianco, ecc.). L’errore casuale (o indeterminato) è l’errore associato ad una misura derivante dalle limitazioni naturali insite nelle misure fisiche, ed influenza la precisione di una misura. Esso può assumere valori positivi o negativi e non può essere eliminato. Il suo effetto sul risultato di una misura può essere però valutato in quanto l’errore casuale può essere studiato mediante un approccio di tipo statistico.

ERRORE SISTEMATICO Gli errori sistematici hanno un valore definito ed una causa di solito determinabile, ed agiscono nello stesso modo su di ogni misura replicata. Le loro cause principali sono: Errori strumentali: derivano, fra le altre cose, da malfunzionamenti nella strumentazione, errori nella calibrazione delle apparecchiature utilizzate, esecuzione delle misure in condizioni non appropriate. Errori di metodo: rappresentano la forma di errore sistematico più difficile da individuare e derivano dal comportamento chimico o fisico non ideale dei reagenti o delle reazioni durante l’analisi. Esempi tipici sono la lentezza o l’incompletezza di alcune reazioni, l’instabilità di alcune specie, la non perfetta specificità dei reagenti, il verificarsi di reazioni secondarie che interferiscono con quella principale. Errori personali: si possono avere tutte le volte che all’operatore viene richiesta una valutazione soggettiva per determinare il valore di una grandezza (ad esempio la lettura di un indicatore o l’osservazione di un cambiamento di colore). Un’altra possibile origine è rappresentata dal pregiudizio dell’operatore (spesso involontario) nella lettura di un risultato numerico.

EFFETTO DELL’ERRORE SISTEMATICO Errore sistematico costante: il valore dell’errore è costante e non dipende dalla quantità misurata Errore sistematico proporzionale: aumenta o diminuisce in proporzione alla quantità misurata Gli errori sistematici possono anche essere composti, cioè risultare dalla somma di errori sistematici costanti e proporzionali. L’effetto dell’errore sistematico sulla analisi presenta un andamento opposto: - per un errore sistematico costante, l’errore relativo è inversamente proporzionale alla quantità da determinare (è maggiore per campioni più piccoli e diminuisce aumentando la dimensione del campione) - per un errore sistematico proporzionale l’errore relativo è costante, indipendente dalla quantità di campione. Errore sistematico proporzionale (positivo) Nessun errore sistematico Valore sperimentale Errore sistematico costante (positivo) Valore vero I due tipi di errori sistematici possono essere differenziati confrontando i risultati di analisi effettuate variando la quantità di campione

CORREZIONE DELL’ERRORE SISTEMATICO Gli errori sistematici strumentali e quelli dovuti alle interferenze da parte della matrice del campione sono in genere corretti utilizzando opportune tecniche di calibrazione (ad esempio, utilizzando il metodo delle aggiunte standard). Gli errori sistematici personali possono essere minimizzati attraverso il controllo delle operazioni effettuate e la scelta del metodo analitico. Gli errori sistematici di metodo sono i più difficili da rivelare in quanto per la loro individuazione è necessario conoscere il valore “vero” del risultato dell’analisi. Alcune procedure utilizzabili sono le seguenti: Utilizzo di materiali standard di riferimento reperibili in commercio (es. presso il National Institute of Standards and Technology – NIST): consistono in materiali naturali di varia natura (o eventualmente ottenuti per sintesi in modo da riprodurne al meglio la composizione) contenenti uno o più analiti a concentrazione nota. Essi permettono quindi non solo di effettuare l’analisi, ma anche di riprodurre le eventuali interferenze dovute alla matrice del campione. La concentrazione dei componenti nei materiali standard di riferimento viene determinata (a) utilizzando metodi analitici di riferimento, (b) utilizzando due o più metodi analitici indipendenti o (c) attraverso le analisi effettuate da una rete di laboratori.

CORREZIONE DELL’ERRORE SISTEMATICO Uso di due o più metodi analitici indipendenti: in assenza di materiali standard di riferimento adeguati, è possibile confrontare i risultati ottenuti mediante il metodo in esame con quelli ricavati dall’analisi dello stesso campione con un differente metodo analitico. I due metodi dovrebbero essere il quanto più possibile diversi fra di loro (e possibilmente basarsi su principi fisici differenti) in modo da evitare che uno stesso fattore possa influenzare entrambe le analisi. Analisi del bianco: l’analisi di un bianco contenente i reagenti ed i solventi utilizzati in un’analisi e, se possibile, i costituenti del campione escluso l’analita (matrice del campione) permette di valutare l’errore dovuto alle interferenze da parte di contaminanti, reagenti ed altri materiali. I risultati ottenuti possono poi essere applicati come correzioni alle misure effettuate sul campione. Spesso sono comunque necessari metodi statistici di confronto per stabilire se la differenza fra i risultati ottenuti nell’analisi ed il valore atteso sia o no dovuta ad un errore di tipo sistematico.

NATURA DELL’ERRORE CASUALE L’errore casuale complessivo in una misura è determinato dall’accumularsi di una serie di errori estremamente piccoli dovuti a molte variabili incontrollate nella maggior parte dei casi non identificabili singolarmente. La loro somma determina però una fluttuazione misurabile dei dati di una serie di replicati intorno al loro valore medio. Sebbene questo errore non possa essere eliminato, il suo effetto può essere analizzato in quanto l’errore casuale presenta caratteristiche ben determinate, interpretabili mediante un approccio di tipo statistico. Quando la variazione è determinata dall’errore casuale, i valori tendono a disporsi attorno al valore medio secondo un andamento a campana, detto curva gaussiana o curva normale dell’errore. Valore sperimentale Normalmente nel trattamento statistico dell’errore casuale si assume una distribuzione di tipo gaussiano. Questa approssimazione è valida nella maggior parte dei casi, ma alcuni tipi di misure seguono una statistica differente (es. le misure di decadimento radioattivo seguono una statistica detta di Poisson).

COME SI GENERA UNA CURVA GAUSSIANA Una curva gaussiana può essere generata attraverso una procedura molto semplice, assumendo che la deviazione dalla media di un replicato sia il risultato della somma di N errori, ognuno di ampiezza U, ognuno dei quali ha eguale probabilità di avere segno positivo o negativo, e valutando la probabilità di ognuna delle possibili deviazioni complessive. N = 4 N = 10 N → ∞ -4U 0 +4U -10U 0 +10U Deviazione Con l’aumento del numero degli errori considerati si passa da una distribuzione discontinua ed approssimata (istogramma) ad una curva indistinguibile da una vera e propria curva gaussiana.

CAMPIONE E POPOLAZIONE Le leggi statistiche vengono derivate assumendo di trattare una popolazione di dati, cioè l’insieme - idealmente infinito - di tutte le misure che si potrebbero effettuare per una certa analisi. In pratica lo sperimentatore ha accesso soltanto ad un campione, ovvero ad numero limitato di dati, che non possono essere rappresentativi di tutta la popolazione. Le leggi statistiche devono quindi venire modificate quando vengono applicate a piccoli campioni di dati. POPOLAZIONE Insieme (reale o ideale) di tutte le misure di interesse CAMPIONE Insieme di dati sperimentali accessibile all’operatore (in pratica, insieme delle misure realmente effettuate)

GRANDEZZE STATISTICHE DELLA POPOLAZIONE E DEL CAMPIONE Le grandezze statistiche vengono definite in modo differente a seconda che si riferiscano alla popolazione o ad un campione. Media della popolazione: rappresenta la media reale relativa alla popolazione. In assenza di errori sistematici, la media della popolazione coincide con il valore “vero” della quantità misurata. Media del campione: è la media aritmetica di un campione limitato preso da una popolazione di dati. Molto spesso, in particolare se N è piccolo, le due medie non coincidono, poiché un campione limitato non rappresenta esattamente la popolazione dalla quale proviene (la media del campione è quindi una stima della media della popolazione). Le due medie (come tutte le altre grandezze statistiche) tendono a coincidere all’aumentare del numero delle misure N del campione. Buona parte del trattamento statistico dei dati sperimentali riguarda perciò come ottenere informazioni affidabili sul valore di m avendo a disposizione soltanto dati sperimentali, quindi valori di x.

GRANDEZZE STATISTICHE DELLA POPOLAZIONE E DEL CAMPIONE (II) Deviazione standard della popolazione: come già visto, è una misura della precisione della popolazione di dati. Deviazione standard del campione: le differenze sostanziali dall’espressione relativa alla popolazione sono la sostituzione di m con x e l’introduzione del denominatore (N – 1) al posto di N. Il denominatore (N – 1) rappresenta il numero di gradi di libertà del sistema, cioè il numero di risultati indipendenti che rientrano nel calcolo della deviazione standard: se il valore di s è noto, N – 1 valori di xi possono variare arbitrariamente mentre l’ultimo valore xN deve necessariamente assumere un certo valore perché il risultato della deviazione standard sia quello desiderato. L’uso del fattore (N – 1) porta da un aumento del valore calcolato di s: se non si usa questo fattore, il valore calcolato di s per il campione sarà, in media, inferiore alla deviazione standard vera s della popolazione.

CURVA GAUSSIANA E PROBABILITA’ In statistica, la curva gaussiana è la funzione che riporta la frequenza relativa – o probabilità - (y) delle varie deviazioni dalla media in funzione del valore della deviazione. Una curva gaussiana è definita univocamente da due soli parametri, la media della popolazione (m) e la deviazione standard della popolazione (s). Il fattore moltiplicativo che appare nell’equazione della curva è un fattore di normalizzazione: esso garantisce che l’area complessiva compresa sotto la curva sia unitaria (la curva gaussiana descrive una probabilità, quindi la probabilità totale deve essere unitaria). Le proprietà fondamentali della gaussiana sono: (a) la media si trova nel punto centrale, corrispondente alla massima frequenza (b) la curva è simmetrica rispetto alla media (c) la frequenza delle deviazioni decresce esponenzialmente all’aumentare del loro valore m x

PARAMETRI DELLA CURVA GAUSSIANA I valori di m e s (media e deviazione standard della popolazione) sono legati rispettivamente alla posizione della curva sull’asse x e la sua larghezza. Si noti come l’area sottesa dalla curva gaussiana resta costante: un incremento della deviazione standard (larghezza della curva) determina una riduzione dell’altezza della curva stessa. 1 2 m1 < m2, s1 = s2 2 1 m1 = m2, s1 < s2 Per i calcoli statistici, essenzialmente basati sulla valutazione dell’area sottesa da determinate sezioni della curva gaussiana sfruttando in genere tabelle precalcolate delle aree, si deve però utilizzare una diversa curva gaussiana, definita curva gaussiana normalizzata.

CURVA GAUSSIANA NORMALIZZATA La curva gaussiana normalizzata utilizza una nuova variabile z, espressa come che rappresenta la deviazione di un dato dalla media espressa in unità di deviazione standard. In questo modo è possibile ottenere una curva gaussiana che descrive tutte le popolazioni di dati, indipendentemente dalla loro media e dalla loro deviazione standard, di equazione: La curva gaussiana normalizzata ha s = 1 e m = 0. Per localizzare sulla curva un punto appartenente ad una generica distribuzione bisogna prima calcolare il suo scostamento dal valor medio della distribuzione (xi - m) e quindi esprimerlo in unità di deviazione standard (xi - m)/s. m x z

AREA SOTTESA DA UNA GAUSSIANA L’area sottesa da una gaussiana normalizzata fra due valori z1 e z2 corrisponde alla probabilità di ottenere un valore compreso appunto fra z1 e z2. Le tabelle precalcolate della curva gaussiana normalizzata riportano per ogni valore x il corrispondente valore di probabilità e l’area della curva nell’intervallo compreso fra 0 ed x, ovvero la probabilità P(0,x) che il dato sperimentale presenti una deviazione compresa in questo intervallo. 0 x P(0,x)

AREA SOTTESA DA UNA GAUSSIANA (II) Combinando i valori riportati in tabella, si possono ottenere facilmente le probabilità relative a qualsiasi intervallo: P(-x1,x2) = P(-x1,0) + P(0,x2) = P(0,x1) + P(0,x2) e, come caso particolare, P(-x1,x1) = P(-x1,0) + P(0,x1) = 2P(0,x1) P(x1,x2) = P(0,x2) - P(0,x1) (se x2 > x1) P(x1,) = P(0,) - P(0,x1) = 0,5 - P(0,x1) Particolarmente interessanti dal punto di vista statistico sono le probabilità che il singolo dato sia compreso entro ±s, ±2s e ±3s dalla media della poplazione: Intervallo Probabilità m ± 1s 68,3% m ± 2s 95,5% m ± 3s 99,7% 3s 2s 1s m x

ERRORE STANDARD DELLA MEDIA La deviazione standard calcolata per il campione o per la popolazione si riferisce al probabile errore su di una singola misura. Se invece della singola misura si considera la popolazione delle medie ottenute da campioni costituiti da N dati, essa presenta una deviazione standard tanto minore di quella del singolo dato quanto più alto è il valore di N. La deviazione standard della media è data dalla: La media dei risultati è quindi più precisa di una singola misura. Aumentare il numero dei replicati non è comunque un modo molto efficiente di aumentare la precisione della misura, poiché il miglioramento dipende soltanto dalla radice quadrata di N. In effetti è più conveniente diminuire s, poiché sm è direttamente proporzionale ad s. sm s N

L’AFFIDABILITA’ DELLA MISURA DELLA PRECISIONE In molti test statistici la correttezza del risultato dipende dall’affidabilità della stima della deviazione standard della popolazione s attraverso la determinazione di s. L’affidabilità di questa stima aumenta all’aumentare di N, e come criterio generale se N ≥ 20 s è una buona stima di s: se la misura non è molto lunga e/o complessa, si può quindi ottenere s effettuando la misura di un numero adeguato di replicati. Nel caso la ripetizione della misura sia problematica, è possibile che si abbiano a disposizione soltanto piccoli gruppi di dati ottenuti in momenti differenti. Nell’ipotesi che questi dati siano omogenei (es. campioni di composizione analoga analizzati nello stesso modo) e che facciano parte della stessa popolazione è possibile calcolare la deviazione standard raggruppata, sg: dove N1, N2, … Nk sono i numeri degli elementi dei k gruppi di dati, N è il numero totale dei dati ed N – k è il numero di gradi di libertà.

ALTRE MISURE DI PRECISIONE La varianza (della popolazione o del campione) è il quadrato della deviazione standard. In genere è meno utilizzata della deviazione standard poiché non ha le stesse unità di misura della grandezza alla quale si riferisce, e quindi non è direttamente confrontabile (d’altra parte, a differenza delle deviazioni standard, le varianze sono additive). Varianza del campione: Varianza della popolazione: Spesso per maggiore praticità la deviazione standard viene espressa in termini relativi: queste grandezze forniscono infatti una rappresentazione più chiara ed immediata della qualità dei dati: Deviazione standard relativa: Coefficiente di variazione: Talvolta per descrivere un insieme di dati è anche usata la dispersione o range, che non è altro che la differenza fra il valore più grande e quello più piccolo dell’insieme.

PROPAGAZIONE DELL’ERRORE In molte misure il risultato finale deriva dalla combinazione di più grandezze sperimentali, ad ognuna delle quali è associata una deviazione standard. In generale, la deviazione standard del risultato non corrisponde semplicemente alla somma delle singole deviazioni standard, in quanto gli errori casuali possono essere sia positivi che negativi e quindi almeno in parte si annullano. Il calcolo della deviazione standard del risultato dipende comunque dalle operazioni aritmetiche coinvolte Addizione e sottrazione La deviazione standard assoluta del risultato di una somma (o sottrazione) è pari alla radice quadrata della somma dei quadrati delle deviazioni standard assolute dei singoli addendi: y =1,76 (± 0,03) + 1,89 (± 0,02) - 0,59 (± 0,02) = 3,06 (± s) y = 3,06 (± 0,04)

PROPAGAZIONE DELL’ERRORE (II) Moltiplicazione e divisione La deviazione standard relativa del risultato di una moltiplicazione (o divisione) è pari alla radice quadrata della somma dei quadrati delle deviazioni standard relative: Occorre quindi prima convertire tutte le deviazioni standard assolute in deviazioni standard relative, quindi calcolare la deviazione standard relativa del prodotto: y = 1,76 (± 0,03) . 1,89 (± 0,02)/0,59 (± 0,02) = 5,64 (± s) Per completare il calcolo si valuta la deviazione standard assoluta del risultato: sy = y . 0,040 = 0,2 y = 5,6 ± 0,2

PROPAGAZIONE DELL’ERRORE (III) Calcoli esponenziali La deviazione standard relativa del risultato di una elevazione a potenza (assumendo che l’esponente sia privo di errore) è pari al prodotto dell’esponente per la deviazione standard relative del numero considerato: La differenza fra le formule relative alla moltiplicazione ed all’elevazione a potenza è determinata dal fatto che nell’elevazione a potenza le deviazioni standard all’interno dell’operazione di elevamento a potenza non sono indipendenti fra di loro. Logaritmi La deviazione standard assoluta di un logaritmo decimale è data dalla deviazione standard relativa del numero considerato moltiplicata per 0,434: Per l’antilogaritmo vale una relazione inversa:

PROPAGAZIONE DELL’ERRORE (IV) Le espressioni viste sono casi particolari di una espressione generale che descrive la propagazione dell’errore per una generica funzione y = f(x1,x2,x3…). Per una funzione di questo tipo, la deviazione standard di y, sy, è legata alle deviazioni standard di x1,x2,x3… dalla relazione: dove con f/xi si indica la derivata parziale della funzione f(x1,x2,x3…) rispetto alla variabile xi.

CIFRE SIGNIFICATIVE Per essere effettivamente utile, ogni dato numerico deve contenere informazioni relative alla sua accuratezza. Questo può essere fatto in vari modi, ad esempio fornendo un intervallo di fiducia al livello del 90% o del 95% oppure indicando una deviazione standard assoluta o relativa, eventualmente riportando anche il numero di dati dalla quale essa è stata ricavata (in modo da indicare anche la sua affidabilità). Un indicatore meno soddisfacente, ma molto comune, si basa sulla convenzione delle cifre significative. Il numero di cifre significative di un numero è il numero minimo di cifre richieste per rappresentarlo in notazione scientifica senza comprometterne la precisione. In base alla definizione, gli zeri sono significativi solo se si trovano in mezzo ad un numero o alla fine di un numero, a destra della virgola (0,000 006 302 oppure 6,302 oppure 6302,0) 9,25 . 104 3 cifre significative 9,250 . 104 4 cifre significative 9,2500 . 104 5 cifre significative In base alla convenzione delle cifre significative, l’ultima cifra significativa di un numero (che può essere anche uno zero) è la prima cifra incerta, alla quale è quindi associato un errore il cui valore minimo è ±1.

CIFRE SIGNIFICATIVE NEI CALCOLI NUMERICI Esistono regole empiriche che permettono di stabilire quale numero di cifre significative debba essere conservato nelle operazioni aritmetiche. Addizione e sottrazione Il numero di cifre significative del risultato è determinato dalla posizione della cifra significativa di “valore” più alto fra i numeri considerati: 3,4 + 0,020 + 7,31 = 10,730 → 10,7 Moltiplicazione e divisione Una regola empirica prevede che il numero di cifre significative del risultato sia pari a quello del numero di partenza con il minor numero di cifre significative. 24 × 4,52 /100,0 = 1,08 → 1,1 24 × 4,02 /100,0 = 0,965 → 0,96 Logaritmi e antilogaritmi Il logaritmo di un numero mantiene a destra della virgola dei decimali un numero di cifre pari a quelle contenute nel numero originale. L’antilogaritmo di un numero mantiene tante cifre quante sono quelle a destra della virgola dei decimali nel numero originale. log 4,000 × 10-5 = -4,3978 antilog 12,5 = 3 × 1012

ARROTONDAMENTO DEI RISULTATI Una volta definito l’entità dell’errore associato, il risultato di una misura analitica deve essere arrotondato di conseguenza. In primo luogo si può arrotondare la deviazione standard associata al risultato: generalmente la deviazione standard può essere riportata con una sola cifra significativa. Sulla base del valore della deviazione standard si arrotonda il risultato alla cifra più vicina compatibile con l’errore associato (nel caso di una cifra “5” finale, entrambi gli arrotondamenti in eccesso ed in difetto sono possibili; per evitare arrotondamenti sistematici in un senso o nell’altro per convenzione in questo caso si arrotonda alla cifra pari più vicina). Come criterio generale, l’arrotondamento andrebbe rimandato fino al momento in cui il calcolo è completo, conservando nei risultati parziali sempre almeno una cifra in aggiuinta a quelle significative: questo evita che arrotondamenti prematuri portino ad un risultato non corretto.

Probabilità di trovare m = livello di fiducia INTERVALLO DI FIDUCIA Nella maggior parte delle situazioni che si possono presentare in chimica analitica, non è possibile conoscere il valore vero m poiché questo richiederebbe un numero infinito di misure. Utilizzando la statistica è però possibile ricavare una stima del valore di m basata sul valore x della media sperimentale, definita mediante l’intervallo di fiducia. Intervallo di fiducia: intervallo di valori centrato attorno al valore della media sperimentale x, all’interno del quale con una certa probabilità (livello di fiducia) cadrà il valore della media m della popolazione. Limite di fiducia inferiore Limite di fiducia superiore Intervallo di fiducia x x Probabilità di trovare m = livello di fiducia

ESPRESSIONE DELL’INTERVALLO DI FIDUCIA (I) Se è noto il valore della deviazione standard della popolazione s, o se comunque si può supporre che il valore di s sia una buona stima del valore di s, l’intervallo di fiducia assume l’espressione generale dove il parametro numerico z non è altro che il valore per il quale l’area della curva gaussiana normalizzata compresa nell’intervallo ±z è pari al livello di fiducia richiesto. P(-z,+z) = livello di fiducia -z 0 +z

ESPRESSIONE DELL’INTERVALLO DI FIDUCIA (II) Alcune considerazioni: L’ampiezza dell’intervallo di fiducia è proporzionale al valore di s: se s è piccolo, l’intervallo di fiducia ha una ampiezza minore. L’ampiezza dell’intervallo di fiducia è inversamente proporzionale a √N: a parità di altri fattori, l’ampiezza può essere ridotta aumentando il numero delle misure. Come già visto nel caso della deviazione standard della media, questo è conveniente solo fino ad un certo punto, oltre al quale il miglioramento ottenibile nell’intervallo di fiducia non giustifica il tempo richiesto per effettuare analisi aggiuntive. L’ampiezza dell’intervallo di fiducia cresce all’aumentare del livello di fiducia richiesto: in genere si deve cercare un compromesso fra un livello di fiducia elevato ed un’ampiezza dell’intervallo ragionevole, che permetta di dare un dato di una qualche utilità pratica. Gli intervalli di fiducia così definiti valgono soltanto in assenza di errori di tipo sistematico e se si conosce s oppure il valore sperimentale di s è una buona approssimazione di s.

ESPRESSIONE DELL’INTERVALLO DI FIDUCIA (III) Spesso il numero di misure non è sufficiente ad ottenere una buona stima di s, e quindi da un insieme di dati relativamente limitato dobbiamo valutare sia la media che la precisione. Siccome il valore di s calcolato da un piccolo insieme di dati può essere molto incerto, quando dobbiamo usare un valore di s determinato in questo modo gli intervalli di fiducia sono più ampi. In questo caso l’intervallo di fiducia è dato dalla formula dove il parametro numerico t (“t di Student”) dipende sia dal livello di fiducia che dal numero di gradi di liberta, cioè in ultima analisi dal numero di dati disponibili. In accordo a quanto detto sopra (maggiore ampiezza dell’intervallo di fiducia), a parità di livello di fiducia t è sempre maggiore di z, e la differenza fra t e z è tanto più grande quanto più basso è il numero N dei dati (all’opposto, per N → ∞ si ha t → z). I valori di t sono reperibili in apposite tabelle, in funzione del livello di fiducia e dei gradi di libertà dell’insieme di dati.

VALORI DELLA “t di Student” t diminuisce all’aumentare dei gradi di libertà t = z t aumenta all’aumentare del livello di fiducia

TEST STATISTICI DI SIGNIFICATIVITA’ Spesso è necessario stabilire se un dato sperimentale ed un dato teorico o due dati sperimentali differiscano fra di loro in modo significativo, cioè valutare se la differenza osservata sia effetto di un errore di tipo casuale (dovuto al fatto che si stanno confrontando risultati ottenuti su due diversi campioni appartenenti alla stessa popolazione) o di tipo sistematico (dovuto al fatto che si stanno confrontando dati appartenenti a due popolazioni diverse). Esiste una serie di test statistici (globalmente definiti test statistici di significatività) che permettono di stabilire se le differenze osservate sono, ad un certo livello di fiducia, dovute ad errori sistematici. Tutti questi test si basano fondamentalmente sullo stesso principio, ovvero sul calcolo mediante opportune formule di un parametro statistico a partire dai dati sperimentali. Questo parametro verrà poi confrontato con opportuni valori tabulati, allo scopo di stabilire se l’eventuale discordanza sia statisticamente significativa. Gli esempi riportati in seguito si riferiscono a test statistici a doppia coda, nei quali il segno dell’eventuale differenza non è importante (esistono anche test ad una coda, per i la differenza è significativa soltanto se ha un segno determinato).

TEST T CONFRONTO FRA MEDIA SPERIMENTALE E VALORE VERO Questo test permette di confrontare una media sperimentale con un valore vero m. Può essere utilizzato ad esempio per determinare l’accuratezza di un metodo analitico attraverso l’analisi di uno standard di riferimento a concentrazione nota. Per effettuare questo test si calcola a partire dai dati sperimentali un valore tsperim dato dalla equazione Che in effetti non è altro che una versione riarrangiata dell’espressione che dà il limite di fiducia quando è noto soltanto il valore di s): Questo valore viene poi confrontato con il valore teorico tteor che viene ricavato dalla tabella dei valori del parametro t di Student, per un numero di gradi di libertà pari a (N – 1) ed un determinato livello di fiducia. Se tsperim > tteor si può concludere che, a quel determinato livello di fiducia, la differenza è statisticamente significativa (ovvero dovuta ad un errore determinato). Se invece tsperim < tteor l’eventuale differenza è, a quel livello di fiducia, non significativa, ovvero dovuta ad errori casuali.

TEST T CONFRONTO FRA DUE MEDIE SPERIMENTALI Questo test permette di confrontare due medie sperimentali risultanti da diversi esperimenti e trova applicazione, per esempio, nel confronto di due diversi campioni o, se il campione analizzato è lo stesso, di due diverse metodiche analitiche. Il valore tsperim è in questo caso dato dall’equazione: dove sg è la deviazione standard raggruppata dell’insieme dei dati, data dalla: Il valore calcolato tsperim viene confrontato con quello teorico tteor, ricavato per un certo livello di fiducia e per N1 + N2 -2 gradi di libertà. Come in precedenza, se tsperim > tteor si può concludere che a quel livello di fiducia esiste una differenza statisticamente significativa fra le due medie; in caso contrario, la differenza è dovuta ad un errore di tipo casuale. L’applicazione di questo tipo di test prevede che le deviazioni standard delle due serie di dati siano simili tra di loro.

TEST T CONFRONTO FRA MEDIE OTTENUTE DA DATI APPAIATI E’ possibile che le medie da confrontare si riferiscano a dati appaiati, che sono stati raccolti in coppie allo scopo di focalizzare l’interesse sulle differenze all’interno di ogni coppia (può essere il caso ad esempio di una serie di analisi effettuate prima e dopo il trattamento in un animale da laboratorio). Oppure la quantità di campione è talmente piccola che ognuno di essi può essere analizzato solo una volta con due differenti metodi analitici. In questo caso il test t deve essere applicato tenendo conto che i dati sono appaiati, e quindi esiste una correlazione fra i valori ottenuti sullo stesso campione. Il valore di tsperim si calcola dall’equazione: dove N è il numero delle coppie di dati che sono stati analizzati, di è la differenza (positiva o negativa) xi(1) – xi(2), all’interno di ogni coppia, è la media delle differenze di fra le vaie coppo di dati e sd è la deviazione standard delle differenze. Come in precedenza, se tsperim > tteor si può concludere che a quel determinato livello di fiducia esiste una differenza significativa fra le due medie; in caso contrario la differenza non è significativa ed è dovuta ad un errore di tipo casuale.

TEST F CONFRONTO DELLA VARIANZA s2 Il test F viene utilizzato per stabilire se esiste una differenza significativa fra le precisioni di due serie di misure. Ad esempio, può essere utilizzato per stabilire se due metodi analitici hanno una differente precisione, o per assicurarci che le due serie di misure abbiano deviazioni standard simili in modo da poterle confrontare utilizzando il test t. Per questo test si calcola il parametro F, dato da: dove s1 ed s2 sono le deviazioni standard delle due serie di dati, assumendo che s1 > s2. I valori di Fteor sono disponibili in tabelle statistiche in funzione dei gradi di libertà n1 e n2 (possono essere differenti fra di loro poiché il numero di misure può essere diverso per i due metodi) e del livello di fiducia richiesto. Quando Fsperim > Fteor si conclude che a quel determinato livello di fiducia s1 ed s2 sono differenti, mentre quando Fsperim < Fteor non c’è differenza significativa fra s1 ed s2.

TEST F: TABELLA DEI VALORI CRITICI DI F

DETERMINAZIONE DI ERRORI GROSSOLANI Talvolta un dato in una serie di replicati (outlier) può sembrare incompatibile con tutti gli altri, generando il sospetto che sia il risultato di un errore grossolano. Sebbene lo scarto di un dato sperimentale sia una operazione che va effettuata con cautela (soprattutto per piccoli insiemi di dati) il test Q è generalmente riconosciuto come un metodo appropriato per prendere tale decisione. Per eseguire questo test i dati vengono disposti in ordine crescente e si calcola il valore del parametro Qsperim, dove xq è il valore sospetto (il più alto o il più basso dell’insieme di dati) ed xn è il valore ad esso più vicino. Si cerca poi in tabella il valore di Qteor corrispondente al numero di osservazioni considerato ed al livello di fiducia richiesto. Se Qsperim > Qteor il dato in esame dovrebbe essere scartato in quanto, con una probabilità almeno pari al livello di fiducia considerato, non appartiene alla popolazione in esame. Se necessario, l’operazione può essere ripetuta per il dato immediatamente precedente, e così via. intervallo

DETERMINAZIONE DI ERRORI GROSSOLANI: TABELLA DEI VALORI CRITICI DI Q 3 0,94 0,98 0,99 4 0,76 0,85 0,93 5 0,64 0,73 0,82 6 0,56 0,74 7 0,51 0,59 0,68 8 0,47 0,54 0,63 9 0,44 0,06 10 0,41 0,48 0,57

METODO DEI MINIMI QUADRATI Un’operazione comune in chimica analitica consiste nel ricavare la curva di calibrazione, cioè la relazione fra il segnale misurato durante un’analisi e la concentrazione dell’analita, e da essa ricavare la concentrazione di un campione incognito per interpolazione del segnale misurato. Anche se la forma (equazione) di questa relazione è nota il calcolo dei suoi coefficienti è complicato dalla presenza degli errori indeterminati, che fanno si che i punti sperimentali non si trovino effettivamente sulla curva, ma se ne discostino in maniera casuale. Caso ideale: nessun errore di misura Caso reale: misure affette da un errore indeterminato ? ● ● segnale segnale ● ● ● ● ● ● concentrazione concentrazione Dal punto di vista matematico l’analisi di regressione applicata attraverso il metodo dei minimi quadrati permette, una volta definita la forma della relazione che lega il segnale (y) alla concentrazione (x), di ottenere i coefficienti della “migliore” curva che passa attraverso una serie di punti sperimentali (xi, yi).

ASSUNZIONI DI BASE DEL METODO DEI MINIMI QUADRATI Nel caso più semplice la relazione fra il segnale (y) e la concentrazione (x) è lineare e si può utilizzare un’analisi di regressione lineare. La dipendenza di y da x ha la forma y = mx + b ed è definita una volta che vengono determinati i coefficienti m (pendenza) e b (intercetta) della retta. Per semplicità si assume poi che ogni deviazione dei punti sperimentali dalla retta dipenda da un errore commesso durante la misurazione. In altre parole, lo scostamento dei punti sperimentali dalla retta si ha soltanto lungo la direzione y, mentre ai valori di x non è associato alcun errore. Lo stesso concetto può essere utilizzato anche se la correlazione fra y ed x non è lineare (regressione non lineare). Esistono poi tecniche di regressione più complesse che prevedono errori associati ad entrambi gli assi, oppure assegnano differente importanza ai vari punti in funzione dell’entità dell’errore ad essi associato. Dy/Dx = pendenza (m) y Dy Dx intercetta (b) x errore solo su y

CALCOLO DEI COEFFICIENTI (I) Il calcolo dei coefficienti della retta con il metodo dei minimi quadrati si basa sulla seguente considerazione (ricavabile su base statistica): punto sperimentale yi la retta migliore che approssima i punti sperimentali è quella per la quale la somma dei quadrati dei residui è minima residuo mxi + b corrispondente punto “teorico” sulla retta di calibrazione xi In termini matematici: Per calcolare i valori di m e b, in primo luogo si definiscono per semplicità le quantità Sxx, Syy e Sxy dove (xi, yi) sono le coordinate dei singoli punti, in numero di N, ed ed sono i valori medi delle coordinate x ed y dei punti.

CALCOLO DEI COEFFICIENTI (II) La condizione di minimo sulla somma dei quadrati dei residui conduce ai seguenti valori per i coefficienti: ai quali, attraverso il parametro sr (deviazione standard della regressione) possono essere associate le rispettive deviazioni standard sulla pendenza (sm) e sulla intercetta (sb): Un ultimo parametro significativo dal punto di vista statistico è il coefficiente di determinazione (R2), che descrive in modo quantitativo l’effettiva aderenza dei punti sperimentali alla retta determinata mediante regressione lineare:

INTERPOLAZIONE DI UN VALORE DI y Limite superiore della deviazione standard di x0 Utilizzando i valori così calcolati è possibile tracciare la retta che meglio approssima i dati sperimentali, che passerà nel loro punto medio . E’ infine possibile ricavare una equazione approssimata che fornisce la deviazione standard di un valore di x (x0) ottenuto per interpolazione sulla retta a partire da un dato valore di y , supponendo che esso rappresenti la media di M replicati: Limite inferiore della deviazione standard di x0 y y3 sx3 y2 ● sx2 y1 sx1 x1 x2 x3 x E’ interessante notare che la deviazione standard dei valori di x0 così ottenuti è minima nella parte centrale della retta: l’errore nel dato interpolato è minimo al centro della retta di calibrazione.

IL SIGNIFICATO DEL COEFFICIENTE DI DETERMINAZIONE Il valore del coefficiente di determinazione è compreso nell’intervallo 0 – 1: nell’ipotesi di una dipendenza lineare, per R2 = 1 y è esattamente proporzionale ad x, mentre per R2 = 0 y ed x non sono correlati fra di loro. R2 = 1 0 < R2 < 1 R2 = 0 y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● x x x Il coefficiente di determinazione è però valido solo nell’ambito della relazione fra y ed x per la quale è stato definito. Un valore di R2 elevato non implica necessariamente che la relazione ipotizzata fra y ed x sia quella corretta, mentre un valore basso potrebbe semplicemente significare che y ed x sono legati fra di loro in un altro modo. R2 alto ● R2 basso y ● y ● ● ● ● ● ● ● ● ● ● ● ● ● ● x x

ANALISI DEI RESIDUI Informazioni sulla validità della relazione ipotizzata in un’analisi di regressione possono essere ottenute dal grafico dei residui. ● ● ● y y ● ● y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● x x x D D D ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● x ● ● x ● ● x I residui sono distribuiti in modo omogeneo: la relazione ipotizzata fra y ed x è presumibilmente quella corretta I residui presentano una variazione regolare: la relazione fra y ed x potrebbe essere diversa da quella ipotizzata I residui presentano una ampiezza che dipende da x: potrebbe essere conveniente una regressione pesata

TRASFORMAZIONE DELLE VARIABILI Se la dipendenza di y da x non è di tipo lineare, è necessario ricorrere ad un procedura di regressione non lineare. In certi casi è però possibile ricondurre i dati ad una dipendenza lineare effettuando una opportuna trasformazione delle variabili in oggetto: Funzione Trasformazione Funzione risultante Esponenziale: y = bemx y’ = ln(y) y’ = ln(b) + mx Potenza: y = bxm y’ = log(y) ed x’ = log(x) y’ = log(b) + mx’ Reciproco: y = b + m(1/x) x’ = 1/x y = b + mx’ E’ però da tenere presente che la regressione lineare effettuata dopo la trasformazione fornisce la migliore stima delle variabili trasformate, non di quelle originali. Sebbene la trasformazione inversa permetta di riottenere le variabili originali, per ottenere un stima di queste variabili sarebbe più corretto utilizzare le procedure di regressione non lineare.