La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio.

Presentazioni simili


Presentazione sul tema: "E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio."— Transcript della presentazione:

1 E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio

2 E SERCIZIO 1 Si consideri il seguente data set Si definisca analiticamente un classificatore SVM, utilizzando il lagrangiano descritto dal vettore [0; 0; ; 0; 0; ; 0; 0; ; 0] T xyU

3 T-SVM S Le SVMs cercano liperpiano di separazione che tende a massimizzare il margine tra le etichette dei campioni. w H+H+ H-H- M d

4 E SERCIZIO 1 Il lagrangiano primale del problema è dato da Dove w e b caratterizzano liperpiano di separazione, e α rappresenta il lagrangiano.

5 E SERCIZIO 1 Le condizioni di ottimalità sono date dai valori della funzione che soddisfano:

6 E SERCIZIO 1 Semplificando, le condizioni possono essere riscritte in

7 E SERCIZIO 1 Lultima condizione specifica che, ove α i non sia uguale a 0, allora deve valere la condizione Nel nostro caso, α è dato dal vettore [0; 0; ; 0; 0; ; 0; 0; ; 0] T che caratterizza le tuple x 3, x 6, x 9 come vettori di supporto.

8 E SERCIZIO 1 Analiticamente, i coefficienti del decision boundary sono

9 E SERCIZIO 1 Graficamente

10 E SERCIZIO 2 Si consideri il seguente dataset:

11 E SERCIZIO 2 Considerando C come attributo di classe ed A e B come variabili numeriche continue, calcolare lentropia del data set e costruire due alberi di decisione: Discretizzando A e B. Assumendo A e B come attributi numerici.

12 E SERCIZIO 2

13 Lentropia dellintero Dataset è Si discretizzano A e B secondo i seguenti criteri: A MB=Molto Basso (X<10) B=Basso (10<=X<15) M=Medio (15<=X<20) A=Alto (20<=X<25) B B=Basso (X<5) A=Alto (X>=5)

14 E SERCIZIO 2

15 Lalbero di decisione è il seguente:

16 E SERCIZIO 2 Nellaltro caso invece, occorre scegliere lattributo su cui splittare. Lo split sullattributo A garantisce un maggior guadagno informativo, rimane però da stabilire la soglia per lo split. Visto che A assume 8 valori diversi possiamo scegliere fra 7 soglie diverse. Tramite la seguente tabella calcoliamo il guadagno informativo correlato allo split sulle varie soglie

17 E SERCIZIO 2 Risulta conveniente splittare il dataset distinguendo fra valori di A =12.

18 E SERCIZIO 2 A questo punto splittiamo su B. Risulta conveniente splittare il dataset distinguendo fra valori di B =7.

19 E SERCIZIO 2 Lultimo split viene fatto nuovamente su A, la scelta della soglia è banale.

20 E SERCIZIO 3 Si considerino i seguenti classificatori:

21 E SERCIZIO 3 Qual è il modello migliore? E se considerassimo la seguente matrice di costo? Guardare la sola predizione può essere fuorviante, conviene ricorrere allanalisi delle curve di ROC

22 E SERCIZIO 3 FPRTPR Soglie Classe reale TPTNFPFN11 0, ,875 0, ,75 0, ,625 0, ,5 0, , ,5 0, , ,5 0, ,5 0, ,375 0, ,125 0, ,125 0, FPRTPR Soglie Classe reale TPTNFPFN11 0, ,751 0, ,750, , ,50, , ,250, , ,250, , ,250, , ,250, , ,250, , , , , , ,

23 E SERCIZIO 3

24 Dalla convex hull si individuano 3 punti principali: P1(0;0.5),P2(0.25;0.85),P3(0.75;1) Costo(P1)= 0 x x 10 = 40 Costo(P2)= 1 x x 10 = 60 Costo(P3)= 3 x x 10 = 150

25 E SERCIZIO 4 Si consideri il seguente data set Si assuma il seguente modello probabilistico: Dove, per una generica variabile binaria z, vale Definire il passo E dellalgoritmo EM Per il modello probabilistico di cui sopra, definire il passo M x1x x2x x

26 E SERCIZIO 4 Sappiamo che:

27 E SERCIZIO 4 Introduciamo le variabili aleatorie y ik Il passo E dellalgoritmo corrisponde al calcolo di:

28 E SERCIZIO 4 Ma ricordiamo che

29 E SERCIZIO 4 Il passo M Definizione dei vincoli: Sempre vero

30 E SERCIZIO 4 Utilizziamo, quindi, i moltiplicatori di Lagrange

31 E SERCIZIO 4 Derivando su π

32 E SERCIZIO 4 Derivando sui parametri di θ, e ricordando che Allora:


Scaricare ppt "E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio."

Presentazioni simili


Annunci Google