Bioinformatica Classificazione

Slides:



Advertisements
Presentazioni simili
Calcolo vettoriale E.F. Orsega – Università Ca’ Foscari di Venezia
Advertisements

Macchine di Percezione
Grandezze ed equazioni fondamentali
Selezione delle caratteristiche - Principal Component Analysis
FUNZIONI REALI DI DUE VARIABILI REALI
I SISTEMI LINEARI.
I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
Sistemi di Classificazione usando NCD
Capitolo 8 Sistemi lineari.
Autovalori e autovettori
COORDINATE POLARI Sia P ha coordinate cartesiane
FUNZIONI DI DUE VARIABILI
Cinematica diretta Un manipolatore è costituito da un insieme di corpi rigidi (bracci) connessi in cascata tramite coppie cinematiche (giunti). Si assume.
Dinamica del manipolatore
Implementazione del problema della approssimazione ai minimi quadrati Camillo Bosco Corso di Analisi Numerica A.A
Bioinformatica Microarray
Bioinformatica Predizione della struttura secondaria dell’RNA – MFOLD
Bioinformatica Pictar – miRanda - TargetScan – miRiam
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Esercizio 1 Un filo indefinito è costituito da due semirette AB e BC formanti un angolo retto, come in figura Il filo è percorso da una corrente I = 10.
Sistemi di supporto alle decisioni 2. Features space
ALGORITMI DI OTTIMIZZAZIONE PER L'ADDESTRAMENTO DI RETI NEURALI
Elementi di Matematica
TEORIA RAPPRESENTAZIONALE DELLA MISURA
Teoria e Tecniche del Riconoscimento
Apprendimento di funzioni algebriche
Computational Learning Theory and PAC learning
Support Vector Machines
Support Vector Machines
MODELLO DI REGRESSIONE LINEARE MULTIPLA
ANALOGICO-DIGITALI (ADC) DIGITALE-ANALOGICI (DAC)
Processi Aleatori : Introduzione – Parte I
Inversione differenziale della Cinematica
Tecnologie di indagine scientifica in Astrofisica (parte I)
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
BIOINGEGNERIA S. Salinari Lezione 4.
CORSO DI MODELLI DI SISTEMI BIOLOGICI
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Teoria e Tecniche del Riconoscimento
Algoritmi e Strutture Dati
Studente Claudia Puzzo
PATTERN RECOGNITION.
Modello di regressione lineare semplice
Analisi delle corrispondenze
Support Vector Machines
E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio.
Intelligenza Artificiale
Metodi numerici per l’approssimazione
Metodi numerici per lapprossimazione Laboratorio di Metodi Numerici a.a. 2008/2009 Prof. Maria Lucia Sampoli.
APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA
Daniele Santamaria – Marco Ventura
Semi-Supervised Learning
Prof. Cerulli – Dott.ssa Gentili
Cenni teorici. La corrente elettrica dal punto di vista microscopico
Università degli Studi di Cagliari
Sottospazi vettoriali
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Determinazione della fase
Analisi discriminante lineare - contesto
Intelligenza Artificiale Reti Neurali
Potenziamento di matematica Scoperta di un nuovo mondo.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
FILTRI NUMERICI. Introduzione Nel campo nei segnali (analogici o digitali), un sistema lineare tempo-invariante è in grado di effettuare una discriminazione.
Support Vector Machines. Perché le SVM (metodi kernel) Percettrone semplice – Algoritmo di apprendimento efficiente – Potere espressivo limitato Percettrone.
Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.
Luoghi di punti In geometria il termine
Le frazioni A partire da N vogliamo costruire un nuovo insieme numerico nel quale sia sempre possibile eseguire la divisione. Per fare ciò dobbiamo introdurre.
Transcript della presentazione:

Bioinformatica Classificazione Dr. Giuseppe Pigola – pigola@dmi.unict.it

Classificazione e Predizione Processo di individuazione di una etichetta della classe categoriale di appartenenza di un oggetto; Se una banca deve decidere se assegnare o meno un prestito ad un correntista, «lo classifica» assegnando una etichetta categoriale (ad es. affidabile / non affidabile); Il medico che deve fare una diagnosi su un paziente «lo classifica» assegnando una etichetta (ad es. malato / sano); PREDIZIONE La predizione modella una funzione continua (mentre la classificazione ha a che fare con valori discreti) e consente di individuare dati sconosciuti o mancanti. Bioinformatica

Classificazione CLASSIFICAZIONE: TRE FASI ADDESTRAMENTO: Costruzione del modello tramite un training set; STIMA DELL’ACCURATEZZA: Calcolo della percentuale di correttezza nell’individuazione della classe durante il processo di classificazione. Velocità; Robustezza: Capacità di discriminare dati corretti e errati; Scalabilità; Interpretabilità di ciò che si ottiene dal classificatore; UTILIZZO: Il modello viene utilizzato per classificare input sconosciuti; Bioinformatica

Classificazione: Preparazione dei Dati DATA CLEANING: Si cerca di eliminare o ridurre il rumore provvedendo a risolvere il problema di dati mancanti; RELEVANCE ANALYSIS: Analizzare i dati e mantenere solo quelli effettivamente discriminanti per la fase di classificazione; DATA TRANSFORMATION AND REDUCTION: Si normalizzano alcuni tipi di dati. La normalizzazione consiste nello scalare i valori di un attributo in un range predefinito (ad esempio [0,1]); Dato un set di dati generalmente viene suddiviso in due parti: Una parte verrà utilizzata per addestrare il modello, l’altra verrà usata per testare il modello; Bioinformatica

Support Vector Machines - SVM Bioinformatica

Support Vector Machines - SVM Le SVM machines sono state sviluppate negli AT&T Bell Laboratories da Vapnik e Chervonenkis; Prime applicazioni: OCR (optical character recognition); Riconoscimento di oggetti [Blanz et al., 1996]; Indentificazione di oratori [Schmidt, 1996]; Identificazione di facce in immagini [Osuna, et al. 1997]; Classificazione di testi [Joachims, 1997]. Software: http://www.csie.ntu.edu.tw/~cjlin/libsvm/ http://bengio.abracadoudou.com/SVMTorch.html Bioinformatica

Support Vector Machines - SVM Sono metodi di classificazione che garantiscono una elevata accuratezza della predizione; Necessitano di pochi dati. Non sono generalmente affette da overfitting; Spesso però è difficile modellare un problema con le SVM, specialmente quando si ha a che fare con spazi multidimensionali; Obiettivo del metodo è quello di costruire una «funzione di classificazione» che si spera possa classificare nuovi dati; Considereremo il caso di classificazione con 2 classi, ma tutto può essere esteso al caso di k classi; Bioinformatica

Support Vector Machines - SVM Per il calcolo della funzione f distinguiamo due casi: Classificazione Lineare (I dati sono linearmente separabili): Esiste nello spazio Rn almeno un iperpiano in grado di separare le tuple del training set (punti di Rn) di classe C1 da quelle di classe C2; Classificazione non Lineare (I dati non sono linearmente separabili): Non esiste nello spazio Rn un iperpiano in grado di separare le tuple di classi diverse; Bioinformatica

SVM – Classificazione Lineare Trovare l’iperpiano che separa «meglio», cioè l’iperpiano che rende massimo il margine, ovvero la distanza tra l’iperpiano e il punto di classe C1 (o C2) più vicino ad esso; Tale iperpiano è detto Maximum Marginal Hyperplane (MMH); Per R2 bisogna trovare la retta che rende massima la distanza dal punto più vicino di C1 o C2; Bioinformatica

SVM – Classificazione Lineare H1,H2 = i due iperpiani passanti, rispettivamente, per i punti di C1 e C2 più vicini al MMH. I punti di C1 e C2 per cui passano H1 e H2 sono detti vettori di supporto e m è il margine. Bioinformatica

SVM – Classificazione Lineare Date m coppie (x,y) con xRn e y{-1,1}, vogliamo trovare wRn e bR tali che: L’iperpiano separatore H è l’insieme di punti tali che Bioinformatica

SVM – Classificazione Lineare Osserviamo che l’iperpiano H1 passa per un punto (una tupla) (xi,yi) con yi=1 mentre H2 passa per un punto (xi,yi) con yi = -1. Dunque: Gli elementi del training set (xi,yi) soddisferanno i vincoli O equivalentemente Bioinformatica

SVM – Classificazione Lineare Vogliamo allora rendere massima Sia P un vettore di supporto e H l’iperpiano separatore. Nel caso di R2 P=(x1,x2) e se H è una retta Generalizzando in Rn, se P(x,y) è un vettore di supporto con xRn avremo Bioinformatica

SVM – Classificazione Lineare Il segno + (-) indica che x giace sul lato positivo (negativo) dell’iperpiano; Il problema di massimizzare il margine m allora si riduce al problema di minimizzare la norma 2 del vettore dei pesi W con la condizione Bioinformatica

SVM – Classificazione Lineare Possiamo formulare la massimizzazione del margine come un problema di ottimizzazione quadratica vincolata Con vincoli Metodo dei moltiplicatori di Lagrange Bioinformatica

SVM – Classificazione Lineare Potremo classificare una nuova tupla X mediante la funzione di classificazione: Dove è un prodotto scalare riga per colonna; Gli i e b0 sono parametri legati a W e sono ottenuti col il metodo dei moltiplicatori di Lagrange; Se allora X verrà classificata come C2; Altrimenti sta in C1; Bioinformatica

SVM – Classificazione Non Lineare Bioinformatica

SVM – Classificazione Non Lineare Nello spazio di Rn non esiste un iperpiano in grado di separare le tuple di classi diverse; Soluzione «soft margin»: Si cerca l’iperpiano che divide i punti nel modo più pulito possibile, introducendo delle costanti di scarto i per ogni tupla ti. Se H1 e H2 sono gli iperplani passanti per i vettori di supporto: i ha valore zero se la tupla ti sta nelle regioni esterne a H1 e H2 (cioè è correttamente classificata); i avrà un valore maggiore di zero (corrispondente alla distanza di ti dal vettore di supporto) se ti è classificata male (ovvero si trova nella regione compresa tra gli iperpiani H1 e H2); Bioinformatica

SVM – Classificazione Non Lineare Potremo esprimere allora i vincoli O euqivalentemente Bioinformatica

SVM – Classificazione Non Lineare La funzione Diventa un limite superiore sul numero di errori possibili; Assegnando un costo agli errori (e tenendo conto dei vincoli) la funzione da minimizzare diverrà Con c parametro (c elevato = alta penalità assegnata agli errori); Bioinformatica

SVM – Classificazione Non Lineare Un modo alternativo consiste nel proiettare il training set in uno spazio dimensionale maggiore in cui sia possibile fare una classificazione lineare Bioinformatica

SVM – Classificazione Non Lineare Ad esempio un vettore tridimensionale X=(x1,x2,x3) può essere mappato in uno spazio a 6 dimensioni utilizzando una funzione di mapping  La tupla nel nuovo spazio sarà allora La funzione di classificazione sarà allora trasformata in Bioinformatica

SVM – Classificazione Non Lineare Il mapping è però un’operazione molto complessa; E’ possibile utilizzare invece le cosiddette «funzioni kernel»; Se X è lo spazio dei dati originale e Z è quello dei dati mappati, una funzione kernel K è tale che per ogni x,y Cioè K restituisce il prodotto tra le immagini di x e y. Con  funzione di mapping allora possiamo calcolare la funzione di classificazione come Bioinformatica

SVM – Classificazione Non Lineare A ciò segue che, invece di applicare il mapping possiamo direttamente usare una funzione kernel K (che deve soddisfare le proprietà del prodotto scalare come commutativa, distributiva, etc etc); Alcune tipiche funzioni Kernel: Una funzione Kernel non lineare separerà (ad es. in R2) le tuple con delle curve e non rette. Bioinformatica

SVM – Applicazioni alla Bioinformatica Una sequenza proteica può essere convertita in un punto 20-dimensionale considerando la composizione aminoacidica (vettore di frequenze); Predire la struttura secondaria e 3D di proteine; Individuazione di omologie remote fra proteine; Classificazione funzionale di geni e proteine; Ricerca di pattern in sequenze biologiche; Analisi di dati di espressione genica provenienti da microarrays; Bioinformatica