Tecniche di analisi matematica
Gli studi di autenticazione e di tracciabilità sugli alimenti sono generalmente effettuati individuando variabili chimico-fisiche che devono avere valori o intervalli di valori ben definiti perchè un alimento possa essere considerato autentico o tracciabile. Naturalmente questi valori sono identificati a partire da campioni di riferimento, la cui autenticità sia documentata Procedure di questo tipo sono in uso da diversi anni, spesso all'interno di normative a vari livelli legislativi. Tuttavia le normative attuali sono insufficienti nel far fronte a tutte le possibili frodi. Per questo motivo la ricerca scientifica in campo agroalimentare è impegnata nello sviluppo di metodi sempre più efficienti Uno schema comune prevede l'utilizzo di uno o più gruppi di sostanze, la cui distribuzione è valutata in riferimento all’origine geografica, alla tipicità varietale, all’anno o alla tecnologia di produzione. Queste variabili sono sfruttate per individuare gruppi o classi di campioni con caratteristiche chimiche omogenee, valutando quali siano le differenze da gruppo a gruppo e confrontando le strutture identificate con campioni di riferimento e con campioni non assegnati. Si effettua, cioè, quella che viene chiamata classificazione. Per effettuare questo tipo di studi, sono necessari strumenti di analisi matematica
La chemiometria Siccome l’informazione contenuta in una sola variabile, composto o elemento che sia, raramente può risolvere il problema (sistema univariato), è preferibile ricorrere alla determinazione di più variabili (sistema multivariato) facendo uso di tecniche matematiche che siano in grado di tener conto contemporaneamente di tutte le variabili utilizzate. Queste tecniche fanno parte di una disciplina nota come chemiometria Tra le tecniche chemiometriche maggiormente utilizzate, vi sono quelle di classificazione o pattern recognition, che permettono di individuare le relazioni tra le variabili, verificando se i dati sono strutturati secondo gruppi ben definiti
Tecniche chemiometriche Classificazione Classificazione Regressione Regressione Disegno Sperimentale Disegno Sperimentale
Visualizzare i dati Nel plot a lato sono diagrammati il contenuto di litio e rubidio in campioni di vino provenienti dalla Galizia ma di due denominazioni diverse: è facile evidenziare i gruppi di campioni con caratteristiche simili. Risultati più sofisticati si hanno con plot trivariati, nei quali sono diagrammate tre variabili Nei casi più semplici, trovando la combinazione giusta di variabili il raggruppamento dei campioni è già evidente in due o tre dimensioni. In questo caso, se n è il numero di variabili misurate, il numero di plot bivariati disponibili è pari a S n (n-1) Osservando i risultati delle analisi in forma tabulare, spesso è difficile mettere in evidenza similitudini tra i campioni. Per questo è opportuno ricorrere a semplici elaborazioni grafiche che possono mostrare in modo immediato come i campioni si dispongano in uno spazio delimitato da due o tre variabili. Il metodo grafico più semplice consiste nel rappresentare i dati con diagrammi o plot bivariati: si tratta di grafici cartesiani bidimensionali, nei quali gli assi sono costituiti da coppie di variabili e ciascun campione è rappresentato da un punto le cui coordinate sono i valori assunti dalle due variabili
Analisi multivariata Se dai plot bivariati o trivariati non è possibile individuare raggruppamenti in maniera semplice, è necessario ricorrere all'analisi multivariata, cioè prendendo contemporaneamente in considerazione un numero elevato di variabili, situazione che si ha, ad esempio, nel caso di un'analisi ICP-MS dove gli elementi determinabili sono molti. Naturalmente la rappresentazione grafica, immediata per due variabili e più complessa ma ancora possibile per tre variabili, diventa del tutto impossibile per un numero di variabili più elevato. In questi casi si ricorre a tecniche di display che permettono di ridurre la dimensionalità dello spazio delle variabili senza perdere significativamente informazioni sui dati, cioè mantenendo il più possibile la struttura dei dati nello spazio definito da tutte le variabili Mentre l'analisi bivariata può essere effettuata con un qualunque software in grado di diagrammare due o tre variabili, per l'analisi multivariata in genere si utilizzano specifici software di calcolo. L'elaborazione dei dati mediante analisi multivariata viene effettuata con le tecniche di classificazione o pattern recognition (riconoscimento di gruppi)
Tecniche di classificazione Le tecniche di classificazione o pattern recognition sono utilizzate per capire come i campioni analizzati si raggruppano in strutture omogenee. Si dividono in due tipologie: metodi unsupervised metodi unsupervised analisi delle componenti principali (PCA)analisi delle componenti principali (PCA) analisi a cluster (CA)analisi a cluster (CA) metodi supervised metodi supervised analisi discriminante (LDA)analisi discriminante (LDA) SIMCASIMCA
Tecniche unsupervised Nelle tecniche unsupervised si ha come risultato la visualizzazione dei dati in maniera compatta e facilmente leggibile, in modo da poter riconoscere i gruppi omogenei all'interno del set di campioni. Si chiamano unsupervised perchè non viene formulata alcuna ipotesi a priori sul modo in cui i campioni si raggrupperanno Le due tecniche più impiegate sono l'analisi delle componenti principali o PCA e l'analisi a cluster o CA
Analisi delle componenti principali L'analisi delle componenti principali (PCA) è un metodo molto noto in chimica e largamente impiegato anche in altre discipline scientifiche e non. Consideriamo un set di dati composto da n variabili che descrivono m oggetti, con m ed n molto elevati. L'informazione contenuta in questo set è difficilmente visualizzabile in plot bi- o trivariati: ogni plot conterrebbe soltanto una minima frazione dell'informazione totale, pari rispettivamente a 2/n e a 3/n. Mediante la PCA è possibile creare un nuovo set di n variabili che siano combinazioni lineari delle variabili originarie. Queste variabili o componenti principali (PC) vengono generate sequenzialmente e hanno due caratteristiche principali: Per questi motivi, utilizzando le prime due o tre PC calcolate è possibile visualizzare in due o tre dimensioni una frazione molto più alta dell'informazione totale, facilitando il pattern recognition; questo è possibile in quanto nella creazione delle PC viene eliminata l'informazione ridondante, dovuta alla correlazione tra le variabili. Quindi, mentre un plot bivariato con due variabili originarie mostra una percentuale dell'informazione totale pari a (2/n)·100%, un plot bivariato con due PC può mostrare una percentuale molto più elevata, pari anche all'80-90%. In definitiva, nonostante la tecnica PCA metta in evidenza solo una frazione dell'informazione iniziale, essa permette in moltissimi casi di riconoscere il modo in cui i campioni si raggruppano 1.sono totalmente non correlate tra di loro, a differenza delle variabili originarie 2.l'insieme delle PC contiene la stessa quantità di informazione delle variabili originarie, ma le prime due o tre mantengono una percentuale elevata dell'informazione totale contenuta nel set di dati
Esempio di PCA In genere è sufficiente un numero limitato (fino a tre) di PC per rappresentare in modo quasi completo la struttura dei dati originari. Il grafico delle PC in cui sono rappresentati i campioni nello spazio definito dalle nuove variabili è chiamato grafico degli scores (sotto) che sono le nuove coordinate degli oggetti in esame Il contributo delle variabili originarie alla composizione delle PC è individuato dal grafico dei loadings: esso permette di capire quali sono le variabili che sono in grado di differenziare i gruppi individuati nel grafico degli scores
Analisi a cluster Si tratta di un insieme di metodi ampiamente utilizzati nel campo degli studi scientifici. Nell'analisi a cluster (CA) i campioni sono considerati come oggetti posti in un iperspazio a n dimensioni, con n uguale al numero di variabili misurate. I campioni sono raggruppati in base alle similitudini rilevate nei valori delle variabili determinate. Il criterio per misurare la similarità tra gli oggetti può essere vario; generalmente è utilizzata la distanza euclidea. Gli oggetti più simili sono quelli aventi distanza euclidea minore; mediante l'applicazione di un algoritmo si esegue il raggruppamento dei dati fino ad avere una rappresentazione grafica dei risultati. I vari metodi CA si differenziano tra loro in base ai diversi criteri utilizzati per calcolare la similarità tra gli oggetti ed in base all'algoritmo utilizzato per eseguire il raggruppamento In campo scientifico il metodo di clustering più utilizzato è quello chiamato gerarchico agglomerativo. Con questo metodo, ciascun oggetto è considerato inizialmente come costituente un singolo gruppo. Schematicamente, l'intero processo è suddiviso in quattro passaggi: 1.si calcolano le distanze tra tutti gli oggetti, a due a due 2.si individua la coppia degli oggetti con distanza minore; questi vengono uniti per formare un unico gruppo o cluster costituente una nuova, singola entità con coordinate intermedie tra quelle dei due oggetti uniti 3.il calcolo delle distanze è ripetuto tenendo conto del nuovo cluster 4.la procedura è iterata fino a quando tutti gli oggetti vengono inclusi in un unico cluster
Esempio di CA sostituzione degli oggetti con nuovi cluster introduca una certa distorsione nel sistema visualizzato I risultati sono riportati in forma di grafico che, per la forma ramificata, è chiamato dendrogramma. Esso permette di identificare i gruppi esistenti tra i campioni, costituiti da oggetti dalle caratteristiche simili. A differenza della PCA, nella CA si visualizza tutta l'informazione contenuta nel set di dati dei campioni, benchè la sostituzione degli oggetti con
Tecniche supervised I metodi supervised, a differenza dei precedenti, si basano sull'assunzione che sia già nota e definita l'esistenza di gruppi o classi. Questa condizione può derivare dal fatto che le analisi sono state eseguite su campioni alimentari di provenienza nota, oppure che i dati sono relativi a gruppi precedentemente definiti tramite la PCA o la CA. Si ha quindi un'assegnazione a priori dei campioni in gruppi. L'elaborazione consente di identificare le variabili che differenziano maggiormente i gruppi predefiniti. Ogni gruppo è poi descritto con un modello matematico che può essere applicato a campioni di attribuzione ignota per valutare come questi ultimi si comportino
Analisi Discriminante Tra i metodi supervised uno dei più utilizzati in campo agroalimentare è l'analisi discriminante lineare (LDA). Essa si utilizza quando sia necessario verificare che nuovi campioni possano essere assegnati a gruppi genitore precedentemente definiti, ad esempio se si desidera chiarire la provenienza di campioni incerti sulla base della loro similitudine composizionale con gruppi formati da campioni di provenienza nota I campioni incogniti possono essere assegnati ai vari gruppi in base a come si dispongono in questo spazio L'analisi discriminante si fonda sulla ripartizione dello spazio delle variabili in zone assegnate ai singoli gruppi, attraverso una specifica regola di discriminazione che genera delle funzioni chiamate, appunto, discriminanti; queste definiscono un nuovo spazio in cui i dati sono riportati in forma di grafico cartesiano