E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio.

E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio

E SERCIZIO 1 Si consideri il seguente data set Si definisca analiticamente un classificatore SVM, utilizzando il lagrangiano descritto dal vettore [0; 0; 0.023802; 0; 0; 0.074711; 0; 0; 0.098512; 0] T xyU 1 01 2 14 3 1001 4 06 5 02 6 3101 7 661 8 1 9 15 10 891

T-SVM S Le SVMs cercano liperpiano di separazione che tende a massimizzare il margine tra le etichette dei campioni. w H+H+ H-H- M d

E SERCIZIO 1 Il lagrangiano primale del problema è dato da Dove w e b caratterizzano liperpiano di separazione, e α rappresenta il lagrangiano.

E SERCIZIO 1 Le condizioni di ottimalità sono date dai valori della funzione che soddisfano:

E SERCIZIO 1 Semplificando, le condizioni possono essere riscritte in

E SERCIZIO 1 Lultima condizione specifica che, ove α i non sia uguale a 0, allora deve valere la condizione Nel nostro caso, α è dato dal vettore [0; 0; 0.023802; 0; 0; 0.074711; 0; 0; 0.098512; 0] T che caratterizza le tuple x 3, x 6, x 9 come vettori di supporto.

E SERCIZIO 1 Analiticamente, i coefficienti del decision boundary sono

E SERCIZIO 1 Graficamente

E SERCIZIO 2 Si consideri il seguente dataset:

E SERCIZIO 2 Considerando C come attributo di classe ed A e B come variabili numeriche continue, calcolare lentropia del data set e costruire due alberi di decisione: Discretizzando A e B. Assumendo A e B come attributi numerici.

E SERCIZIO 2

Lentropia dellintero Dataset è 0.9957. Si discretizzano A e B secondo i seguenti criteri: A MB=Molto Basso (X<10) B=Basso (10<=X<15) M=Medio (15<=X<20) A=Alto (20<=X<25) B B=Basso (X<5) A=Alto (X>=5)

E SERCIZIO 2

Lalbero di decisione è il seguente:

E SERCIZIO 2 Nellaltro caso invece, occorre scegliere lattributo su cui splittare. Lo split sullattributo A garantisce un maggior guadagno informativo, rimane però da stabilire la soglia per lo split. Visto che A assume 8 valori diversi possiamo scegliere fra 7 soglie diverse. Tramite la seguente tabella calcoliamo il guadagno informativo correlato allo split sulle varie soglie

E SERCIZIO 2 Risulta conveniente splittare il dataset distinguendo fra valori di A =12.

E SERCIZIO 2 A questo punto splittiamo su B. Risulta conveniente splittare il dataset distinguendo fra valori di B =7.

E SERCIZIO 2 Lultimo split viene fatto nuovamente su A, la scelta della soglia è banale.

E SERCIZIO 3 Si considerino i seguenti classificatori:

E SERCIZIO 3 Qual è il modello migliore? E se considerassimo la seguente matrice di costo? Guardare la sola predizione può essere fuorviante, conviene ricorrere allanalisi delle curve di ROC

E SERCIZIO 3 FPRTPR Soglie Classe reale TPTNFPFN11 0,11 703110,875 0,21 603210,75 0,251 503310,625 0,31 403410,5 0,40 41240,6666670,5 0,60 42140,3333330,5 0,70 430400,5 0,81 330500,375 0,91 130700,125 0,91 130700,125 0,971 030800 00 FPRTPR Soglie Classe reale TPTNFPFN11 0,10 71300,751 0,21 61310,750,857143 0,30 62210,50,857143 0,40 63110,250,857143 0,61 53120,250,714286 0,71 43130,250,571429 0,751 33140,250,428571 0,81 23150,250,285714 0,850 240500,285714 0,91 140600,142857 0,971 140600,142857 00

E SERCIZIO 3

Dalla convex hull si individuano 3 punti principali: P1(0;0.5),P2(0.25;0.85),P3(0.75;1) Costo(P1)= 0 x 50 + 4 x 10 = 40 Costo(P2)= 1 x 50 + 1 x 10 = 60 Costo(P3)= 3 x 50 + 0 x 10 = 150

E SERCIZIO 4 Si consideri il seguente data set Si assuma il seguente modello probabilistico: Dove, per una generica variabile binaria z, vale Definire il passo E dellalgoritmo EM Per il modello probabilistico di cui sopra, definire il passo M x1x1 0101001100 x2x2 0011010101 x30011111101

E SERCIZIO 4 Sappiamo che:

E SERCIZIO 4 Introduciamo le variabili aleatorie y ik Il passo E dellalgoritmo corrisponde al calcolo di:

E SERCIZIO 4 Ma ricordiamo che

E SERCIZIO 4 Il passo M Definizione dei vincoli: Sempre vero

E SERCIZIO 4 Utilizziamo, quindi, i moltiplicatori di Lagrange

E SERCIZIO 4 Derivando su π

E SERCIZIO 4 Derivando sui parametri di θ, e ricordando che Allora:

E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio.

Presentazioni simili

Presentazione sul tema: "E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio.

Presentazioni simili

Presentazione sul tema: "E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back