Bioinformatica Classificazione

Slides:

Advertisements

Presentazioni simili

Calcolo vettoriale E.F. Orsega – Università Ca’ Foscari di Venezia

Advertisements

Macchine di Percezione

Grandezze ed equazioni fondamentali

Selezione delle caratteristiche - Principal Component Analysis

FUNZIONI REALI DI DUE VARIABILI REALI

I SISTEMI LINEARI.

I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT

Sistemi di Classificazione usando NCD

Capitolo 8 Sistemi lineari.

Autovalori e autovettori

COORDINATE POLARI Sia P ha coordinate cartesiane

FUNZIONI DI DUE VARIABILI

Cinematica diretta Un manipolatore è costituito da un insieme di corpi rigidi (bracci) connessi in cascata tramite coppie cinematiche (giunti). Si assume.

Dinamica del manipolatore

Implementazione del problema della approssimazione ai minimi quadrati Camillo Bosco Corso di Analisi Numerica A.A

Bioinformatica Microarray

Bioinformatica Predizione della struttura secondaria dell’RNA – MFOLD

Bioinformatica Pictar – miRanda - TargetScan – miRiam

Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –

Esercizio 1 Un filo indefinito è costituito da due semirette AB e BC formanti un angolo retto, come in figura Il filo è percorso da una corrente I = 10.

Sistemi di supporto alle decisioni 2. Features space

ALGORITMI DI OTTIMIZZAZIONE PER L'ADDESTRAMENTO DI RETI NEURALI

Elementi di Matematica

TEORIA RAPPRESENTAZIONALE DELLA MISURA

Teoria e Tecniche del Riconoscimento

Apprendimento di funzioni algebriche

Computational Learning Theory and PAC learning

Support Vector Machines

Support Vector Machines

MODELLO DI REGRESSIONE LINEARE MULTIPLA

ANALOGICO-DIGITALI (ADC) DIGITALE-ANALOGICI (DAC)

Processi Aleatori : Introduzione – Parte I

Inversione differenziale della Cinematica

Tecnologie di indagine scientifica in Astrofisica (parte I)

CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.

BIOINGEGNERIA S. Salinari Lezione 4.

CORSO DI MODELLI DI SISTEMI BIOLOGICI

STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE

Teoria e Tecniche del Riconoscimento

Algoritmi e Strutture Dati

Studente Claudia Puzzo

PATTERN RECOGNITION.

Modello di regressione lineare semplice

Analisi delle corrispondenze

Support Vector Machines

E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio.

Intelligenza Artificiale

Metodi numerici per l’approssimazione

Metodi numerici per lapprossimazione Laboratorio di Metodi Numerici a.a. 2008/2009 Prof. Maria Lucia Sampoli.

APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA

Daniele Santamaria – Marco Ventura

Semi-Supervised Learning

Prof. Cerulli – Dott.ssa Gentili

Cenni teorici. La corrente elettrica dal punto di vista microscopico

Università degli Studi di Cagliari

Sottospazi vettoriali

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING

Determinazione della fase

Analisi discriminante lineare - contesto

Intelligenza Artificiale Reti Neurali

Potenziamento di matematica Scoperta di un nuovo mondo.

TRATTAMENTO STATISTICO DEI DATI ANALITICI

Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)

L’analisi di regressione e correlazione Prof. Luigi Piemontese.

FILTRI NUMERICI. Introduzione Nel campo nei segnali (analogici o digitali), un sistema lineare tempo-invariante è in grado di effettuare una discriminazione.

Support Vector Machines. Perché le SVM (metodi kernel) Percettrone semplice – Algoritmo di apprendimento efficiente – Potere espressivo limitato Percettrone.

Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.

Luoghi di punti In geometria il termine

Le frazioni A partire da N vogliamo costruire un nuovo insieme numerico nel quale sia sempre possibile eseguire la divisione. Per fare ciò dobbiamo introdurre.

Transcript della presentazione:

Bioinformatica Classificazione Dr. Giuseppe Pigola – pigola@dmi.unict.it

Classificazione e Predizione Processo di individuazione di una etichetta della classe categoriale di appartenenza di un oggetto; Se una banca deve decidere se assegnare o meno un prestito ad un correntista, «lo classifica» assegnando una etichetta categoriale (ad es. affidabile / non affidabile); Il medico che deve fare una diagnosi su un paziente «lo classifica» assegnando una etichetta (ad es. malato / sano); PREDIZIONE La predizione modella una funzione continua (mentre la classificazione ha a che fare con valori discreti) e consente di individuare dati sconosciuti o mancanti. Bioinformatica

Classificazione CLASSIFICAZIONE: TRE FASI ADDESTRAMENTO: Costruzione del modello tramite un training set; STIMA DELL’ACCURATEZZA: Calcolo della percentuale di correttezza nell’individuazione della classe durante il processo di classificazione. Velocità; Robustezza: Capacità di discriminare dati corretti e errati; Scalabilità; Interpretabilità di ciò che si ottiene dal classificatore; UTILIZZO: Il modello viene utilizzato per classificare input sconosciuti; Bioinformatica

Classificazione: Preparazione dei Dati DATA CLEANING: Si cerca di eliminare o ridurre il rumore provvedendo a risolvere il problema di dati mancanti; RELEVANCE ANALYSIS: Analizzare i dati e mantenere solo quelli effettivamente discriminanti per la fase di classificazione; DATA TRANSFORMATION AND REDUCTION: Si normalizzano alcuni tipi di dati. La normalizzazione consiste nello scalare i valori di un attributo in un range predefinito (ad esempio [0,1]); Dato un set di dati generalmente viene suddiviso in due parti: Una parte verrà utilizzata per addestrare il modello, l’altra verrà usata per testare il modello; Bioinformatica

Support Vector Machines - SVM Bioinformatica

Support Vector Machines - SVM Le SVM machines sono state sviluppate negli AT&T Bell Laboratories da Vapnik e Chervonenkis; Prime applicazioni: OCR (optical character recognition); Riconoscimento di oggetti [Blanz et al., 1996]; Indentificazione di oratori [Schmidt, 1996]; Identificazione di facce in immagini [Osuna, et al. 1997]; Classificazione di testi [Joachims, 1997]. Software: http://www.csie.ntu.edu.tw/~cjlin/libsvm/ http://bengio.abracadoudou.com/SVMTorch.html Bioinformatica

Support Vector Machines - SVM Sono metodi di classificazione che garantiscono una elevata accuratezza della predizione; Necessitano di pochi dati. Non sono generalmente affette da overfitting; Spesso però è difficile modellare un problema con le SVM, specialmente quando si ha a che fare con spazi multidimensionali; Obiettivo del metodo è quello di costruire una «funzione di classificazione» che si spera possa classificare nuovi dati; Considereremo il caso di classificazione con 2 classi, ma tutto può essere esteso al caso di k classi; Bioinformatica

Support Vector Machines - SVM Per il calcolo della funzione f distinguiamo due casi: Classificazione Lineare (I dati sono linearmente separabili): Esiste nello spazio Rn almeno un iperpiano in grado di separare le tuple del training set (punti di Rn) di classe C1 da quelle di classe C2; Classificazione non Lineare (I dati non sono linearmente separabili): Non esiste nello spazio Rn un iperpiano in grado di separare le tuple di classi diverse; Bioinformatica

SVM – Classificazione Lineare Trovare l’iperpiano che separa «meglio», cioè l’iperpiano che rende massimo il margine, ovvero la distanza tra l’iperpiano e il punto di classe C1 (o C2) più vicino ad esso; Tale iperpiano è detto Maximum Marginal Hyperplane (MMH); Per R2 bisogna trovare la retta che rende massima la distanza dal punto più vicino di C1 o C2; Bioinformatica

SVM – Classificazione Lineare H1,H2 = i due iperpiani passanti, rispettivamente, per i punti di C1 e C2 più vicini al MMH. I punti di C1 e C2 per cui passano H1 e H2 sono detti vettori di supporto e m è il margine. Bioinformatica

SVM – Classificazione Lineare Date m coppie (x,y) con xRn e y{-1,1}, vogliamo trovare wRn e bR tali che: L’iperpiano separatore H è l’insieme di punti tali che Bioinformatica

SVM – Classificazione Lineare Osserviamo che l’iperpiano H1 passa per un punto (una tupla) (xi,yi) con yi=1 mentre H2 passa per un punto (xi,yi) con yi = -1. Dunque: Gli elementi del training set (xi,yi) soddisferanno i vincoli O equivalentemente Bioinformatica

SVM – Classificazione Lineare Vogliamo allora rendere massima Sia P un vettore di supporto e H l’iperpiano separatore. Nel caso di R2 P=(x1,x2) e se H è una retta Generalizzando in Rn, se P(x,y) è un vettore di supporto con xRn avremo Bioinformatica

SVM – Classificazione Lineare Il segno + (-) indica che x giace sul lato positivo (negativo) dell’iperpiano; Il problema di massimizzare il margine m allora si riduce al problema di minimizzare la norma 2 del vettore dei pesi W con la condizione Bioinformatica

SVM – Classificazione Lineare Possiamo formulare la massimizzazione del margine come un problema di ottimizzazione quadratica vincolata Con vincoli Metodo dei moltiplicatori di Lagrange Bioinformatica

SVM – Classificazione Lineare Potremo classificare una nuova tupla X mediante la funzione di classificazione: Dove è un prodotto scalare riga per colonna; Gli i e b0 sono parametri legati a W e sono ottenuti col il metodo dei moltiplicatori di Lagrange; Se allora X verrà classificata come C2; Altrimenti sta in C1; Bioinformatica

SVM – Classificazione Non Lineare Bioinformatica

SVM – Classificazione Non Lineare Nello spazio di Rn non esiste un iperpiano in grado di separare le tuple di classi diverse; Soluzione «soft margin»: Si cerca l’iperpiano che divide i punti nel modo più pulito possibile, introducendo delle costanti di scarto i per ogni tupla ti. Se H1 e H2 sono gli iperplani passanti per i vettori di supporto: i ha valore zero se la tupla ti sta nelle regioni esterne a H1 e H2 (cioè è correttamente classificata); i avrà un valore maggiore di zero (corrispondente alla distanza di ti dal vettore di supporto) se ti è classificata male (ovvero si trova nella regione compresa tra gli iperpiani H1 e H2); Bioinformatica

SVM – Classificazione Non Lineare Potremo esprimere allora i vincoli O euqivalentemente Bioinformatica

SVM – Classificazione Non Lineare La funzione Diventa un limite superiore sul numero di errori possibili; Assegnando un costo agli errori (e tenendo conto dei vincoli) la funzione da minimizzare diverrà Con c parametro (c elevato = alta penalità assegnata agli errori); Bioinformatica

SVM – Classificazione Non Lineare Un modo alternativo consiste nel proiettare il training set in uno spazio dimensionale maggiore in cui sia possibile fare una classificazione lineare Bioinformatica

SVM – Classificazione Non Lineare Ad esempio un vettore tridimensionale X=(x1,x2,x3) può essere mappato in uno spazio a 6 dimensioni utilizzando una funzione di mapping  La tupla nel nuovo spazio sarà allora La funzione di classificazione sarà allora trasformata in Bioinformatica

SVM – Classificazione Non Lineare Il mapping è però un’operazione molto complessa; E’ possibile utilizzare invece le cosiddette «funzioni kernel»; Se X è lo spazio dei dati originale e Z è quello dei dati mappati, una funzione kernel K è tale che per ogni x,y Cioè K restituisce il prodotto tra le immagini di x e y. Con  funzione di mapping allora possiamo calcolare la funzione di classificazione come Bioinformatica

SVM – Classificazione Non Lineare A ciò segue che, invece di applicare il mapping possiamo direttamente usare una funzione kernel K (che deve soddisfare le proprietà del prodotto scalare come commutativa, distributiva, etc etc); Alcune tipiche funzioni Kernel: Una funzione Kernel non lineare separerà (ad es. in R2) le tuple con delle curve e non rette. Bioinformatica

SVM – Applicazioni alla Bioinformatica Una sequenza proteica può essere convertita in un punto 20-dimensionale considerando la composizione aminoacidica (vettore di frequenze); Predire la struttura secondaria e 3D di proteine; Individuazione di omologie remote fra proteine; Classificazione funzionale di geni e proteine; Ricerca di pattern in sequenze biologiche; Analisi di dati di espressione genica provenienti da microarrays; Bioinformatica