La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio.

Presentazioni simili


Presentazione sul tema: "E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio."— Transcript della presentazione:

1 E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio

2 E SERCIZIO 1 Si consideri il seguente data set Si definisca analiticamente un classificatore SVM, utilizzando il lagrangiano descritto dal vettore [0; 0; 0.023802; 0; 0; 0.074711; 0; 0; 0.098512; 0] T xyU 1 01 2 14 3 1001 4 06 5 02 6 3101 7 661 8 1 9 15 10 891

3 T-SVM S Le SVMs cercano liperpiano di separazione che tende a massimizzare il margine tra le etichette dei campioni. w H+H+ H-H- M d

4 E SERCIZIO 1 Il lagrangiano primale del problema è dato da Dove w e b caratterizzano liperpiano di separazione, e α rappresenta il lagrangiano.

5 E SERCIZIO 1 Le condizioni di ottimalità sono date dai valori della funzione che soddisfano:

6 E SERCIZIO 1 Semplificando, le condizioni possono essere riscritte in

7 E SERCIZIO 1 Lultima condizione specifica che, ove α i non sia uguale a 0, allora deve valere la condizione Nel nostro caso, α è dato dal vettore [0; 0; 0.023802; 0; 0; 0.074711; 0; 0; 0.098512; 0] T che caratterizza le tuple x 3, x 6, x 9 come vettori di supporto.

8 E SERCIZIO 1 Analiticamente, i coefficienti del decision boundary sono

9 E SERCIZIO 1 Graficamente

10 E SERCIZIO 2 Si consideri il seguente dataset:

11 E SERCIZIO 2 Considerando C come attributo di classe ed A e B come variabili numeriche continue, calcolare lentropia del data set e costruire due alberi di decisione: Discretizzando A e B. Assumendo A e B come attributi numerici.

12 E SERCIZIO 2

13 Lentropia dellintero Dataset è 0.9957. Si discretizzano A e B secondo i seguenti criteri: A MB=Molto Basso (X<10) B=Basso (10<=X<15) M=Medio (15<=X<20) A=Alto (20<=X<25) B B=Basso (X<5) A=Alto (X>=5)

14 E SERCIZIO 2

15 Lalbero di decisione è il seguente:

16 E SERCIZIO 2 Nellaltro caso invece, occorre scegliere lattributo su cui splittare. Lo split sullattributo A garantisce un maggior guadagno informativo, rimane però da stabilire la soglia per lo split. Visto che A assume 8 valori diversi possiamo scegliere fra 7 soglie diverse. Tramite la seguente tabella calcoliamo il guadagno informativo correlato allo split sulle varie soglie

17 E SERCIZIO 2 Risulta conveniente splittare il dataset distinguendo fra valori di A =12.

18 E SERCIZIO 2 A questo punto splittiamo su B. Risulta conveniente splittare il dataset distinguendo fra valori di B =7.

19 E SERCIZIO 2 Lultimo split viene fatto nuovamente su A, la scelta della soglia è banale.

20 E SERCIZIO 3 Si considerino i seguenti classificatori:

21 E SERCIZIO 3 Qual è il modello migliore? E se considerassimo la seguente matrice di costo? Guardare la sola predizione può essere fuorviante, conviene ricorrere allanalisi delle curve di ROC

22 E SERCIZIO 3 FPRTPR Soglie Classe reale TPTNFPFN11 0,11 703110,875 0,21 603210,75 0,251 503310,625 0,31 403410,5 0,40 41240,6666670,5 0,60 42140,3333330,5 0,70 430400,5 0,81 330500,375 0,91 130700,125 0,91 130700,125 0,971 030800 00 FPRTPR Soglie Classe reale TPTNFPFN11 0,10 71300,751 0,21 61310,750,857143 0,30 62210,50,857143 0,40 63110,250,857143 0,61 53120,250,714286 0,71 43130,250,571429 0,751 33140,250,428571 0,81 23150,250,285714 0,850 240500,285714 0,91 140600,142857 0,971 140600,142857 00

23 E SERCIZIO 3

24 Dalla convex hull si individuano 3 punti principali: P1(0;0.5),P2(0.25;0.85),P3(0.75;1) Costo(P1)= 0 x 50 + 4 x 10 = 40 Costo(P2)= 1 x 50 + 1 x 10 = 60 Costo(P3)= 3 x 50 + 0 x 10 = 150

25 E SERCIZIO 4 Si consideri il seguente data set Si assuma il seguente modello probabilistico: Dove, per una generica variabile binaria z, vale Definire il passo E dellalgoritmo EM Per il modello probabilistico di cui sopra, definire il passo M x1x1 0101001100 x2x2 0011010101 x30011111101

26 E SERCIZIO 4 Sappiamo che:

27 E SERCIZIO 4 Introduciamo le variabili aleatorie y ik Il passo E dellalgoritmo corrisponde al calcolo di:

28 E SERCIZIO 4 Ma ricordiamo che

29 E SERCIZIO 4 Il passo M Definizione dei vincoli: Sempre vero

30 E SERCIZIO 4 Utilizziamo, quindi, i moltiplicatori di Lagrange

31 E SERCIZIO 4 Derivando su π

32 E SERCIZIO 4 Derivando sui parametri di θ, e ricordando che Allora:


Scaricare ppt "E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio."

Presentazioni simili


Annunci Google