La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Support Vector Machines. Agenda Alcuni richiami matematici – vettori, norme e prodotti interni – punti linearmente separabili e iperpiani di separazione.

Presentazioni simili


Presentazione sul tema: "Support Vector Machines. Agenda Alcuni richiami matematici – vettori, norme e prodotti interni – punti linearmente separabili e iperpiani di separazione."— Transcript della presentazione:

1 Support Vector Machines

2 Agenda Alcuni richiami matematici – vettori, norme e prodotti interni – punti linearmente separabili e iperpiani di separazione Generalità sulle SV – Il problema e alcune definizioni: margini di un iperpiano, iperpiano canonico – due ragioni di carattere teorico per supportare la validità delle SVM – La formulazione del programma (matematico) per la soluzione al problema

3 Premessa Considereremo punti o vettori su Per facilità di rappresentazione faremo quasi sempre riferimento a R 2 In R 2 (geometricamente, nel piano) i punti sono rappresentati da coppie ordinate (x 1, x 2 ) di numeri reali (coordinate) Tali punti sono facilmente rappresentabili attraverso segmenti orientati, caratterizzati da: – direzione, verso, lunghezza w P RxRx…xR = R n n volte

4 Vettori in R 2 Sullinsieme di questi punti possiamo eseguire due operazioni fondamentali – Addizione – Moltiplicazione per un numero reale (riscaliamo il punto! ) Alcuni concetti utili per iniziare P: (x 1,x 2 ) Q: (x 3,x 4 ) P+Q: (x 1 +x 3,x 2 +x 4 ) 2P: (2x 1,2x 2 ) P: (x 1,x 2 ) - P: (-x 1,-x 2 )

5 Il prodotto interno in R n Il prodotto interno tra due vettori in R n è il numero reale – Alcune proprietà Alcuni concetti utili per iniziare

6 La norma in R n La norma di un vettore in R n (o anche modulo, lunghezza) è il numero reale non negativo – Alcune proprietà Vettore unitario Alcuni concetti utili per iniziare ||x|| se

7 Norma e prodotto interno Geometricamente langolo sotteso da due vettori in R 2 è dato da:

8 Proiezione di un vettore Proiezione di v su u

9 Nota

10 Rette e iperpiani Una retta r che passa per lorigine in R 2 può essere definita assegnando un vettore w = (w 1, w 2 ) ad essa ortogonale Tutti i punti (vettori) x = (x 1,x 2 ) sulla retta sono ortogonali a w Quindi w w w w x Alcuni concetti utili per iniziare

11 Iperpiano in R 2 Alcuni concetti utili per iniziare w Un iperpiano h in R 2 con il vettore w ad esso ortogonale Nota: tutti i punti su h sono tali che = 0 h x0x0 x

12 Iperpiano in R 2 w h x0x0 x Nota: liperpiano determina 2 semispazi !

13 Punti linearmente separabili Alcuni concetti utili per iniziare classificatore Classe +1 Classe -1

14 Iperpiani in R n Generalizziamo in più dimensioni (nello spazio euclideo !): – ogni iperpiano h (di dimensione (n-1)) che passa per lorigine di R n è caratterizzato dallequazione – Se liperpiano non passa per lorigine – Un iperpiano è quindi un insieme di punti espresso in questo modo Alcuni concetti utili per iniziare

15 Nota... I vettori sulliperpiano si proiettano tutti nello stesso punto I punti da un lato delliperpiano sono tali che I punti dallaltro lato sono tali che w x h

16 Generalità sulle SVM Classe di metodi che – sulla base di argomentazioni teoriche derivanti dalla teoria statistica dellapprendimento – per mezzo di un problema di programmazione matematica – trovano liperpiano separatore (il migliore) per classificare un insieme di punti (linearmente separabili)

17 Assunto che i punti siano linearmente separabili Intuitivamente Classe +1 Classe -1

18 Ci sono diversi iperpiani separatori ! Var 1 Var 2 Ognuno di questi va bene ! Ma qual è il migliore ? Intuitivamente Classe +1 Classe -1

19 Idea …. prendiamo un iperpiano e ne allarghiamo il margine … fino a toccare un punto ! Consideriamo lampiezza della zona verde Var 2 Var 1 Nota: allinterno della zona verde non ci sono punti ! Nota: La zona verde è anchessa racchiusa tra 2 iperpiani Intuitivamente Classe +1

20 Consideriamo il margine di un altro iperpiano Var 2 Var 1 Questa volta la zona verde è decisamente più ampia Intuitivamente

21 Una domanda cui rispondere... ad intuito – Se riuscissimo a separare i dati con un largo margine (quellampia zona verde) avremmo ragione di credere che (assunto che i punti siano generati sempre dalla stessa regola !) il classificatore (liperpiano) sia (in un certo senso) più robusto tanto da avere una migliore generalizzazione ?

22 Un prova per il nostro intuito ! Var 2 Var 1 Il classificatore f divide correttamente (fino ad ora) i punti sul quale è stato addestrato... f

23 Una prova per il nostro intuito ! Var 2 Var 1 A Il nuovo punto estratto di cui conosco la posizione (ma non la classe) sarà classificato correttamente da f ? f In questa posizione comparirà un nuovo punto di cui non conosciamo la classe

24 Una prova per il nostro intuito ! Var 2 Var 1 Questa volta con successive estrazioni B e C cadono sempre più vicino (ad f)... C B

25 Una prova per il nostro intuito ! Var 2 Var 1 E se ci chiedessero di scommettere ? C B A

26 ATTENZIONE: il nostro intuito non sbaglia ! Con la teoria statistica dellapprendimento si dimostra che più allarghiamo il margine più liperpiano generalizza ( VC dimension) Non ci resta che scrivere un algoritmo per trovare liperpiano di separazione di massimo margine – Lo faremo per mezzo della programmazione matematica

27 Le SVM Supponiamo, quindi, di avere un insieme di punti di training Ad ogni x i è associata la rispettiva classe di appartenenza y i I punti sono linearmente separabili – Ma questo lo possiamo anche scrivere in un solo vincolo

28 IL MIGLIORE ! Quello che separa meglio i punti negativi da quelli positivi Obiettivo ! Noi cerchiamo tra gli iperpiani separatori – O equivalentemente cerchiamo tra le funzioni (di decisione) lineari associate Dove g è (w,b)(w,b)

29 Troviamo prima una formula per lampiezza della zona verde Sia d + (d - ) la distanza tra liperpiano separatore e il punto positivo (negativo) più vicino Var 2 Var 1 dd Def: i margini di un iperpiano - Margine funzionale - Margine geometrico

30 Definizione: margine funzionale Il margine funzionale di un punto (x i,y i ) rispetto alliperpiano (w, b) è definito come segue: Il valore minimo – viene definito come il margine funzionale delliperpiano rispetto al training set S

31 Note sul margine funzionale Se il punto x + è tale che y = +1 perchè il margine funzionale sia grande è necessario che abbia un grande valore positivo la quantità Se il punto x - è tale che y = -1 perchè il margine funzionale sia grande è necessario che abbia un grande valore negativo la quantità

32 Note sul margine funzionale Se la classificazione è OK ! (Verificare per credere) ! Quindi un ampio margine funzionale ci da una certa speranza sulla nostra previsione ! Ma utilizzare semplicemente causa dei problemi infatti....

33 Note sul margine funzionale Il margine funzionale è invariante rispetto ad un iperpiano riscalato – Ovvero: per come abbiamo impostato Il classificatore f e g in {-1 1} – se scaliamo liperpiano (w, b) (cw, cb) Otteniamo lo stesso iperpiano ! Stesso luogo dei punti ! Otteniamo la stessa g ! (dipende solo dal segno di +b ) – e ovviamente la stessa h dipende dal segno di g ! vedremo che questo fatto ci aiuterà però a trovare lalgoritmo (impostare in maniera efficace il problema di programmazione)!

34 Definizione: il margine geometrico Qual è la distanza di un punto x dalliperpiano ? Dalla geometria con qualche calcolo... Var 2 Var 1 d xixi w f

35 Definizione: il margine geometrico Il margine geometrico di un punto (x i, y i ) rispetto alliperpiano (w, b) è definito come segue: Il valore minimo Viene definito come il margine geometrico delliperpiano rispetto al training set S

36 Note sul margine geometrico Se la classificazione è OK (come per quello funzionale) – (Verificare per credere) ! Se il punto non è correttamente classificato otteniamo un margine che eguaglia la distanza negativa dalliperpiano Dato un punto positivo (negativo) il margine geometrico rappresenta la sua distanza (geometrica) dalliperpiano Il margine geometrico, quindi, da meglio lidea della distanza di un punto in R n

37 Note sul margine geometrico Anche il margine geometrico è invariante – Grazie a tale invarianza possiamo riscalare liperpiano senza cambiare nulla (non varia il margine) ! – Se imponiamo ||w|| = 1 stiamo di fatto riscalando liperpiano (w,b) (w/||w||,b/||w||). Stiamo considerando un iperpiano (w/||w||,b/||w||) con vettore pesi w/||w|| di norma unitaria

38 Definizione iperpiano canonico Un iperpiano è detto canonico qualora In altri termini per un iperpiano canonico – Il margine funzionale è 1 – il margine geometrico è

39 Note sui margini se ||w|| = 1 il margine funzionale è uguale al margine geometrico ! In generale possiamo metterli in relazione

40 Verso il programma (matematico) Per quanto detto sembra naturale cercare di estendere quanto possibile il margine geometrico ! – Dobbiamo ottimizzarlo ! – Lo faremo attraverso un programma matematico del tipo OBIETTIVO: Arrivare ad una impostazione (del programma) per una efficace implementazione OBIETTIVO: Arrivare ad una impostazione (del programma) per una efficace implementazione

41 4 note su funzione obiettivo Vincoli Si deve trovare x che renda minimo f(x) rispettando i vincoli Non sempre esiste una soluzione e, se esiste, difficilmente si può trovarla per via analitica a volte si può approssimare con metodi iterativi.

42 Verso il programma (matematico) w Vorremmo assicurarci che tutti i punti (sia quelli positivi sia quelli negativi) cadano al di fuori del margine Dato un vorremmo che per ogni punto (i)

43 Il problema ! Se vogliamo che per ogni i, sia grande – In modo tale da allora scriviamo margine geom. = margine funz.

44 Ma possiamo arrivare ad una forma migliore da implementare Ripensiamo la formulazione: Il margine geo può essere scritto Problema ! (vincolo non convesso) Problema ! (vincolo non convesso) Problema ! (obbiettivo non conv) Problema ! (obbiettivo non conv)

45 Possiamo arrivare ad una forma migliore da implementare Ricordiamoci che possiamo scalare liperpiano senza cambiare nulla (invarianza)! Quindi possiamo riscalare (w,b) in modo tale che il margine funzionale sia ad esempio 1 (iperpiano canonico)

46 Il programma Rendere massimo Equivale a rendere minimo Questa è la forma sulla quale lavorare NB si dimostra che esiste una sola soluzione al problema Ovvero esiste un unico iperpiano di massimo margine !

47 Riassumendo: 2 ragioni che supportano il metodo delle SVM – 1° : la capacita delliperpiano di separazione di massimo margine ( generalizzazione) – 2° : esiste ununica soluzione del problema precedente ! Ora 2 punti importanti – La formulazione della soluzione del programma precedente – La formulazione della funzione di decisione associata alla soluzione

48 1° - La formulazione della soluzione (attraverso) i vettori di supporto La soluzione al problema può essere scritta – Ovvero è scritta in termini di un sottoinsieme di esempi del training set (noto come vettori di supporto) che giacciono sul margine delliperpiano

49 1* La formulazione della soluzione (attraverso): i vettori di supporto Var 1 Var 2 Margin Width Support Vectors

50 2° la formulazione della funzione di decisione associata alla soluzione Quindi nella funzione di decisione possiamo scrivere La funzione di decisione associata alla soluzione può essere scritta in termini del prodotto interno tra x i e x

51 E se i punti non sono linearmente separabili ? Si puo risolvere (rivedere la formulazione delle SVM) con i metodi kernel....

52 Kernels Give a way to apply SVMs efficiently in very high (or infinite) dimensional feature spaces K(x, z) = (x) T (z), where : R n R m K(x, z) may be very inexpensive to calculate, even though (x) itself may be very expensive (perhaps because it is an extremely high dimensional vector). In such settings, by using in our algorithm an efficient way to calculate K(x, z), we can get SVMs to learn in the high dimensional feature space space given by, but without ever having to explicitly find or represent vectors (x)

53 Example Suppose x, z R n, and consider K(x, z) = (x T z) 2 :

54 SMO algorithm Gives an efficient implementation of SVMs


Scaricare ppt "Support Vector Machines. Agenda Alcuni richiami matematici – vettori, norme e prodotti interni – punti linearmente separabili e iperpiani di separazione."

Presentazioni simili


Annunci Google