Tecniche di analisi matematica. Gli studi di autenticazione e di tracciabilità sugli alimenti sono generalmente effettuati individuando variabili chimico-fisiche.

Slides:



Advertisements
Presentazioni simili
Funzioni reali di due variabili reali
Advertisements

Equazioni e calcoli chimici
I SISTEMI LINEARI.
Funzioni di due variabili
Cinematica diretta Un manipolatore è costituito da un insieme di corpi rigidi (bracci) connessi in cascata tramite coppie cinematiche (giunti). Si assume.
2 Marketing La ricerca di marketing J. Paul Peter
GLI ORGANI AZIENDALI.
Analisi preliminari dei dati
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
C – Indici di Asimmetria e Curtosi
Analisi multivariata.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
1 Le competenze di base dell'asse matematico Utilizzare le tecniche e le procedure del calcolo aritmetico ed algebrico, rappresentandole anche sotto forma.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
Proprietà di un Gas Può essere compresso facilmente
Alcuni aspetti rilevanti in scienza dei materiali
Studente Claudia Puzzo
Analisi delle corrispondenze
Analisi dei gruppi – Cluster Analisys
Parte I (introduzione) Taratura degli strumenti (cfr: UNI 4546) Si parla di taratura in regime statico se lo strumento verrà utilizzato soltanto per misurare.
Cai Lin Lin Michela & Guidetti Emanuela presentano:
METODI E CONTROLLI STATISTICI DI PROCESSO
Geometria analitica: dalle funzioni alle rette Cliccate su F5 per vedere meglio e poi ovunque per andare avanti.
STRUTTURA GENERALE DI UN ELABORATORE
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
L’ingegneria del software
Lo sviluppo del progetto informatico
I principali tipi di grafici
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Le rappresentazioni grafiche
Simone Mosca & Daniele Zucchini 4Bi.
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
Classificazione (aka Cluster Analysis)
1 Nuovo Obbligo Scolastico: Gli Assi Culturali. 2 Asse dei Linguaggi Asse Matematico Asse Scientifico-Tecnologico Asse Storico Sociale.
Prof. Francesco Gaspare Caputo
Variabili temporali Analisi statistica
Progettazione Logica Il prodotto della progettazione logica è uno schema logico che rappresenta le informazioni contenute nello schema E-R in modo corretto.
Grandezze e Misure
ANALISI DEI DATI STATISTICI
Calcolo letterale.
L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale.
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
IL CAMPIONE.
Test basati su due campioni Test Chi - quadro
Analisi discriminante lineare - contesto
Strategie di progetto Si possono utilizzare le strategie tipiche dello sviluppo di un processo di ingegnerizzazione (es. ingegneria del software). Strategie.
Potenziamento di matematica Scoperta di un nuovo mondo.
DIAGNOSTICA CHIMICA PER LA AUTENTICITA’ ALIMENTARE Dott. ssa Mara Miglietta BIOTEC – AGRO C.R. Enea - Trisaia.
NiXuS srl1 Training Galco Italia 22 Gennaio 2000 pMeter Software per l’analisi delle performance aziendali. N I X U S srl Via G. Scarabelli Roma,
I Parte LA PRODUZIONE STATISTICA DEI DATI  Introduzione  La pianificazione  Il disegno dell’indagine  Le tecniche d’indagine  Le fasi operative 
Corso di Laurea in Scienze e tecniche psicologiche
Le funzioni.
ANALISI E INTERPRETAZIONE DATI
 In questa parte del nostro lavoro andremo ad analizzare i dati relativi ai consumi delle famiglie presenti nel sito ISTAT. I comportamenti di consumo.
Alcune metodiche Relazione tra consanguineità ed isonimia (Crow & Mange, 1965) F = I / 4 Metodo delle coppie ripetute (Lasker & Kaplan, 1985) Indici di.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Self-Organizing Map (SOM Kohonen, 1981) è una tecnica di visualizzazione dei dati multidimensionali SOM è una mappa mono- (bi-)dimensionale che rappresenta.
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Campionamento procedimento attraverso il quale si estrae, da un insieme di unità (popolazione) costituenti l’oggetto delle studio, un numero ridotto di.
Ottimizzazione dei terreni di coltura Metodi statistici.
PRESENTAZIONE CORSO: Statistica Multivariata Applicata OPZIONALE Docente: Marcello Mascini Il Docente e' disponibile per chiarimenti.
10 Quasi esperimenti Giulio Vidotto Raffaele Cioffi.
Probabilità Definizione di probabilità La definizione di probabilità si basa sul concetto di evento, ovvero sul fatto che un determinato esperimento può.
Gli Indici di VARIABILITA’
Il DEFF Il DEFF (Design EFFect) è l’Effetto del Piano di
Transcript della presentazione:

Tecniche di analisi matematica

Gli studi di autenticazione e di tracciabilità sugli alimenti sono generalmente effettuati individuando variabili chimico-fisiche che devono avere valori o intervalli di valori ben definiti perchè un alimento possa essere considerato autentico o tracciabile. Naturalmente questi valori sono identificati a partire da campioni di riferimento, la cui autenticità sia documentata Procedure di questo tipo sono in uso da diversi anni, spesso all'interno di normative a vari livelli legislativi. Tuttavia le normative attuali sono insufficienti nel far fronte a tutte le possibili frodi. Per questo motivo la ricerca scientifica in campo agroalimentare è impegnata nello sviluppo di metodi sempre più efficienti Uno schema comune prevede l'utilizzo di uno o più gruppi di sostanze, la cui distribuzione è valutata in riferimento all’origine geografica, alla tipicità varietale, all’anno o alla tecnologia di produzione. Queste variabili sono sfruttate per individuare gruppi o classi di campioni con caratteristiche chimiche omogenee, valutando quali siano le differenze da gruppo a gruppo e confrontando le strutture identificate con campioni di riferimento e con campioni non assegnati. Si effettua, cioè, quella che viene chiamata classificazione. Per effettuare questo tipo di studi, sono necessari strumenti di analisi matematica

La chemiometria Siccome l’informazione contenuta in una sola variabile, composto o elemento che sia, raramente può risolvere il problema (sistema univariato), è preferibile ricorrere alla determinazione di più variabili (sistema multivariato) facendo uso di tecniche matematiche che siano in grado di tener conto contemporaneamente di tutte le variabili utilizzate. Queste tecniche fanno parte di una disciplina nota come chemiometria Tra le tecniche chemiometriche maggiormente utilizzate, vi sono quelle di classificazione o pattern recognition, che permettono di individuare le relazioni tra le variabili, verificando se i dati sono strutturati secondo gruppi ben definiti

Tecniche chemiometriche Classificazione Classificazione Regressione Regressione Disegno Sperimentale Disegno Sperimentale

Visualizzare i dati Nel plot a lato sono diagrammati il contenuto di litio e rubidio in campioni di vino provenienti dalla Galizia ma di due denominazioni diverse: è facile evidenziare i gruppi di campioni con caratteristiche simili. Risultati più sofisticati si hanno con plot trivariati, nei quali sono diagrammate tre variabili Nei casi più semplici, trovando la combinazione giusta di variabili il raggruppamento dei campioni è già evidente in due o tre dimensioni. In questo caso, se n è il numero di variabili misurate, il numero di plot bivariati disponibili è pari a S n (n-1) Osservando i risultati delle analisi in forma tabulare, spesso è difficile mettere in evidenza similitudini tra i campioni. Per questo è opportuno ricorrere a semplici elaborazioni grafiche che possono mostrare in modo immediato come i campioni si dispongano in uno spazio delimitato da due o tre variabili. Il metodo grafico più semplice consiste nel rappresentare i dati con diagrammi o plot bivariati: si tratta di grafici cartesiani bidimensionali, nei quali gli assi sono costituiti da coppie di variabili e ciascun campione è rappresentato da un punto le cui coordinate sono i valori assunti dalle due variabili

Analisi multivariata Se dai plot bivariati o trivariati non è possibile individuare raggruppamenti in maniera semplice, è necessario ricorrere all'analisi multivariata, cioè prendendo contemporaneamente in considerazione un numero elevato di variabili, situazione che si ha, ad esempio, nel caso di un'analisi ICP-MS dove gli elementi determinabili sono molti. Naturalmente la rappresentazione grafica, immediata per due variabili e più complessa ma ancora possibile per tre variabili, diventa del tutto impossibile per un numero di variabili più elevato. In questi casi si ricorre a tecniche di display che permettono di ridurre la dimensionalità dello spazio delle variabili senza perdere significativamente informazioni sui dati, cioè mantenendo il più possibile la struttura dei dati nello spazio definito da tutte le variabili Mentre l'analisi bivariata può essere effettuata con un qualunque software in grado di diagrammare due o tre variabili, per l'analisi multivariata in genere si utilizzano specifici software di calcolo. L'elaborazione dei dati mediante analisi multivariata viene effettuata con le tecniche di classificazione o pattern recognition (riconoscimento di gruppi)

Tecniche di classificazione Le tecniche di classificazione o pattern recognition sono utilizzate per capire come i campioni analizzati si raggruppano in strutture omogenee. Si dividono in due tipologie: metodi unsupervised metodi unsupervised analisi delle componenti principali (PCA)analisi delle componenti principali (PCA) analisi a cluster (CA)analisi a cluster (CA) metodi supervised metodi supervised analisi discriminante (LDA)analisi discriminante (LDA) SIMCASIMCA

Tecniche unsupervised Nelle tecniche unsupervised si ha come risultato la visualizzazione dei dati in maniera compatta e facilmente leggibile, in modo da poter riconoscere i gruppi omogenei all'interno del set di campioni. Si chiamano unsupervised perchè non viene formulata alcuna ipotesi a priori sul modo in cui i campioni si raggrupperanno Le due tecniche più impiegate sono l'analisi delle componenti principali o PCA e l'analisi a cluster o CA

Analisi delle componenti principali L'analisi delle componenti principali (PCA) è un metodo molto noto in chimica e largamente impiegato anche in altre discipline scientifiche e non. Consideriamo un set di dati composto da n variabili che descrivono m oggetti, con m ed n molto elevati. L'informazione contenuta in questo set è difficilmente visualizzabile in plot bi- o trivariati: ogni plot conterrebbe soltanto una minima frazione dell'informazione totale, pari rispettivamente a 2/n e a 3/n. Mediante la PCA è possibile creare un nuovo set di n variabili che siano combinazioni lineari delle variabili originarie. Queste variabili o componenti principali (PC) vengono generate sequenzialmente e hanno due caratteristiche principali: Per questi motivi, utilizzando le prime due o tre PC calcolate è possibile visualizzare in due o tre dimensioni una frazione molto più alta dell'informazione totale, facilitando il pattern recognition; questo è possibile in quanto nella creazione delle PC viene eliminata l'informazione ridondante, dovuta alla correlazione tra le variabili. Quindi, mentre un plot bivariato con due variabili originarie mostra una percentuale dell'informazione totale pari a (2/n)·100%, un plot bivariato con due PC può mostrare una percentuale molto più elevata, pari anche all'80-90%. In definitiva, nonostante la tecnica PCA metta in evidenza solo una frazione dell'informazione iniziale, essa permette in moltissimi casi di riconoscere il modo in cui i campioni si raggruppano 1.sono totalmente non correlate tra di loro, a differenza delle variabili originarie 2.l'insieme delle PC contiene la stessa quantità di informazione delle variabili originarie, ma le prime due o tre mantengono una percentuale elevata dell'informazione totale contenuta nel set di dati

Esempio di PCA In genere è sufficiente un numero limitato (fino a tre) di PC per rappresentare in modo quasi completo la struttura dei dati originari. Il grafico delle PC in cui sono rappresentati i campioni nello spazio definito dalle nuove variabili è chiamato grafico degli scores (sotto) che sono le nuove coordinate degli oggetti in esame Il contributo delle variabili originarie alla composizione delle PC è individuato dal grafico dei loadings: esso permette di capire quali sono le variabili che sono in grado di differenziare i gruppi individuati nel grafico degli scores

Analisi a cluster Si tratta di un insieme di metodi ampiamente utilizzati nel campo degli studi scientifici. Nell'analisi a cluster (CA) i campioni sono considerati come oggetti posti in un iperspazio a n dimensioni, con n uguale al numero di variabili misurate. I campioni sono raggruppati in base alle similitudini rilevate nei valori delle variabili determinate. Il criterio per misurare la similarità tra gli oggetti può essere vario; generalmente è utilizzata la distanza euclidea. Gli oggetti più simili sono quelli aventi distanza euclidea minore; mediante l'applicazione di un algoritmo si esegue il raggruppamento dei dati fino ad avere una rappresentazione grafica dei risultati. I vari metodi CA si differenziano tra loro in base ai diversi criteri utilizzati per calcolare la similarità tra gli oggetti ed in base all'algoritmo utilizzato per eseguire il raggruppamento In campo scientifico il metodo di clustering più utilizzato è quello chiamato gerarchico agglomerativo. Con questo metodo, ciascun oggetto è considerato inizialmente come costituente un singolo gruppo. Schematicamente, l'intero processo è suddiviso in quattro passaggi: 1.si calcolano le distanze tra tutti gli oggetti, a due a due 2.si individua la coppia degli oggetti con distanza minore; questi vengono uniti per formare un unico gruppo o cluster costituente una nuova, singola entità con coordinate intermedie tra quelle dei due oggetti uniti 3.il calcolo delle distanze è ripetuto tenendo conto del nuovo cluster 4.la procedura è iterata fino a quando tutti gli oggetti vengono inclusi in un unico cluster

Esempio di CA sostituzione degli oggetti con nuovi cluster introduca una certa distorsione nel sistema visualizzato I risultati sono riportati in forma di grafico che, per la forma ramificata, è chiamato dendrogramma. Esso permette di identificare i gruppi esistenti tra i campioni, costituiti da oggetti dalle caratteristiche simili. A differenza della PCA, nella CA si visualizza tutta l'informazione contenuta nel set di dati dei campioni, benchè la sostituzione degli oggetti con

Tecniche supervised I metodi supervised, a differenza dei precedenti, si basano sull'assunzione che sia già nota e definita l'esistenza di gruppi o classi. Questa condizione può derivare dal fatto che le analisi sono state eseguite su campioni alimentari di provenienza nota, oppure che i dati sono relativi a gruppi precedentemente definiti tramite la PCA o la CA. Si ha quindi un'assegnazione a priori dei campioni in gruppi. L'elaborazione consente di identificare le variabili che differenziano maggiormente i gruppi predefiniti. Ogni gruppo è poi descritto con un modello matematico che può essere applicato a campioni di attribuzione ignota per valutare come questi ultimi si comportino

Analisi Discriminante Tra i metodi supervised uno dei più utilizzati in campo agroalimentare è l'analisi discriminante lineare (LDA). Essa si utilizza quando sia necessario verificare che nuovi campioni possano essere assegnati a gruppi genitore precedentemente definiti, ad esempio se si desidera chiarire la provenienza di campioni incerti sulla base della loro similitudine composizionale con gruppi formati da campioni di provenienza nota I campioni incogniti possono essere assegnati ai vari gruppi in base a come si dispongono in questo spazio L'analisi discriminante si fonda sulla ripartizione dello spazio delle variabili in zone assegnate ai singoli gruppi, attraverso una specifica regola di discriminazione che genera delle funzioni chiamate, appunto, discriminanti; queste definiscono un nuovo spazio in cui i dati sono riportati in forma di grafico cartesiano