E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio
E SERCIZIO 1 Si consideri il seguente data set Si definisca analiticamente un classificatore SVM, utilizzando il lagrangiano descritto dal vettore [0; 0; ; 0; 0; ; 0; 0; ; 0] T xyU
T-SVM S Le SVMs cercano liperpiano di separazione che tende a massimizzare il margine tra le etichette dei campioni. w H+H+ H-H- M d
E SERCIZIO 1 Il lagrangiano primale del problema è dato da Dove w e b caratterizzano liperpiano di separazione, e α rappresenta il lagrangiano.
E SERCIZIO 1 Le condizioni di ottimalità sono date dai valori della funzione che soddisfano:
E SERCIZIO 1 Semplificando, le condizioni possono essere riscritte in
E SERCIZIO 1 Lultima condizione specifica che, ove α i non sia uguale a 0, allora deve valere la condizione Nel nostro caso, α è dato dal vettore [0; 0; ; 0; 0; ; 0; 0; ; 0] T che caratterizza le tuple x 3, x 6, x 9 come vettori di supporto.
E SERCIZIO 1 Analiticamente, i coefficienti del decision boundary sono
E SERCIZIO 1 Graficamente
E SERCIZIO 2 Si consideri il seguente dataset:
E SERCIZIO 2 Considerando C come attributo di classe ed A e B come variabili numeriche continue, calcolare lentropia del data set e costruire due alberi di decisione: Discretizzando A e B. Assumendo A e B come attributi numerici.
E SERCIZIO 2
Lentropia dellintero Dataset è Si discretizzano A e B secondo i seguenti criteri: A MB=Molto Basso (X<10) B=Basso (10<=X<15) M=Medio (15<=X<20) A=Alto (20<=X<25) B B=Basso (X<5) A=Alto (X>=5)
E SERCIZIO 2
Lalbero di decisione è il seguente:
E SERCIZIO 2 Nellaltro caso invece, occorre scegliere lattributo su cui splittare. Lo split sullattributo A garantisce un maggior guadagno informativo, rimane però da stabilire la soglia per lo split. Visto che A assume 8 valori diversi possiamo scegliere fra 7 soglie diverse. Tramite la seguente tabella calcoliamo il guadagno informativo correlato allo split sulle varie soglie
E SERCIZIO 2 Risulta conveniente splittare il dataset distinguendo fra valori di A =12.
E SERCIZIO 2 A questo punto splittiamo su B. Risulta conveniente splittare il dataset distinguendo fra valori di B =7.
E SERCIZIO 2 Lultimo split viene fatto nuovamente su A, la scelta della soglia è banale.
E SERCIZIO 3 Si considerino i seguenti classificatori:
E SERCIZIO 3 Qual è il modello migliore? E se considerassimo la seguente matrice di costo? Guardare la sola predizione può essere fuorviante, conviene ricorrere allanalisi delle curve di ROC
E SERCIZIO 3 FPRTPR Soglie Classe reale TPTNFPFN11 0, ,875 0, ,75 0, ,625 0, ,5 0, , ,5 0, , ,5 0, ,5 0, ,375 0, ,125 0, ,125 0, FPRTPR Soglie Classe reale TPTNFPFN11 0, ,751 0, ,750, , ,50, , ,250, , ,250, , ,250, , ,250, , ,250, , , , , , ,
E SERCIZIO 3
Dalla convex hull si individuano 3 punti principali: P1(0;0.5),P2(0.25;0.85),P3(0.75;1) Costo(P1)= 0 x x 10 = 40 Costo(P2)= 1 x x 10 = 60 Costo(P3)= 3 x x 10 = 150
E SERCIZIO 4 Si consideri il seguente data set Si assuma il seguente modello probabilistico: Dove, per una generica variabile binaria z, vale Definire il passo E dellalgoritmo EM Per il modello probabilistico di cui sopra, definire il passo M x1x x2x x
E SERCIZIO 4 Sappiamo che:
E SERCIZIO 4 Introduciamo le variabili aleatorie y ik Il passo E dellalgoritmo corrisponde al calcolo di:
E SERCIZIO 4 Ma ricordiamo che
E SERCIZIO 4 Il passo M Definizione dei vincoli: Sempre vero
E SERCIZIO 4 Utilizziamo, quindi, i moltiplicatori di Lagrange
E SERCIZIO 4 Derivando su π
E SERCIZIO 4 Derivando sui parametri di θ, e ricordando che Allora: