Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio
2
E SERCIZIO 1 Si consideri il seguente data set Si definisca analiticamente un classificatore SVM, utilizzando il lagrangiano descritto dal vettore [0; 0; 0.023802; 0; 0; 0.074711; 0; 0; 0.098512; 0] T xyU 1 01 2 14 3 1001 4 06 5 02 6 3101 7 661 8 1 9 15 10 891
3
T-SVM S Le SVMs cercano liperpiano di separazione che tende a massimizzare il margine tra le etichette dei campioni. w H+H+ H-H- M d
4
E SERCIZIO 1 Il lagrangiano primale del problema è dato da Dove w e b caratterizzano liperpiano di separazione, e α rappresenta il lagrangiano.
5
E SERCIZIO 1 Le condizioni di ottimalità sono date dai valori della funzione che soddisfano:
6
E SERCIZIO 1 Semplificando, le condizioni possono essere riscritte in
7
E SERCIZIO 1 Lultima condizione specifica che, ove α i non sia uguale a 0, allora deve valere la condizione Nel nostro caso, α è dato dal vettore [0; 0; 0.023802; 0; 0; 0.074711; 0; 0; 0.098512; 0] T che caratterizza le tuple x 3, x 6, x 9 come vettori di supporto.
8
E SERCIZIO 1 Analiticamente, i coefficienti del decision boundary sono
9
E SERCIZIO 1 Graficamente
10
E SERCIZIO 2 Si consideri il seguente dataset:
11
E SERCIZIO 2 Considerando C come attributo di classe ed A e B come variabili numeriche continue, calcolare lentropia del data set e costruire due alberi di decisione: Discretizzando A e B. Assumendo A e B come attributi numerici.
12
E SERCIZIO 2
13
Lentropia dellintero Dataset è 0.9957. Si discretizzano A e B secondo i seguenti criteri: A MB=Molto Basso (X<10) B=Basso (10<=X<15) M=Medio (15<=X<20) A=Alto (20<=X<25) B B=Basso (X<5) A=Alto (X>=5)
14
E SERCIZIO 2
15
Lalbero di decisione è il seguente:
16
E SERCIZIO 2 Nellaltro caso invece, occorre scegliere lattributo su cui splittare. Lo split sullattributo A garantisce un maggior guadagno informativo, rimane però da stabilire la soglia per lo split. Visto che A assume 8 valori diversi possiamo scegliere fra 7 soglie diverse. Tramite la seguente tabella calcoliamo il guadagno informativo correlato allo split sulle varie soglie
17
E SERCIZIO 2 Risulta conveniente splittare il dataset distinguendo fra valori di A =12.
18
E SERCIZIO 2 A questo punto splittiamo su B. Risulta conveniente splittare il dataset distinguendo fra valori di B =7.
19
E SERCIZIO 2 Lultimo split viene fatto nuovamente su A, la scelta della soglia è banale.
20
E SERCIZIO 3 Si considerino i seguenti classificatori:
21
E SERCIZIO 3 Qual è il modello migliore? E se considerassimo la seguente matrice di costo? Guardare la sola predizione può essere fuorviante, conviene ricorrere allanalisi delle curve di ROC
22
E SERCIZIO 3 FPRTPR Soglie Classe reale TPTNFPFN11 0,11 703110,875 0,21 603210,75 0,251 503310,625 0,31 403410,5 0,40 41240,6666670,5 0,60 42140,3333330,5 0,70 430400,5 0,81 330500,375 0,91 130700,125 0,91 130700,125 0,971 030800 00 FPRTPR Soglie Classe reale TPTNFPFN11 0,10 71300,751 0,21 61310,750,857143 0,30 62210,50,857143 0,40 63110,250,857143 0,61 53120,250,714286 0,71 43130,250,571429 0,751 33140,250,428571 0,81 23150,250,285714 0,850 240500,285714 0,91 140600,142857 0,971 140600,142857 00
23
E SERCIZIO 3
24
Dalla convex hull si individuano 3 punti principali: P1(0;0.5),P2(0.25;0.85),P3(0.75;1) Costo(P1)= 0 x 50 + 4 x 10 = 40 Costo(P2)= 1 x 50 + 1 x 10 = 60 Costo(P3)= 3 x 50 + 0 x 10 = 150
25
E SERCIZIO 4 Si consideri il seguente data set Si assuma il seguente modello probabilistico: Dove, per una generica variabile binaria z, vale Definire il passo E dellalgoritmo EM Per il modello probabilistico di cui sopra, definire il passo M x1x1 0101001100 x2x2 0011010101 x30011111101
26
E SERCIZIO 4 Sappiamo che:
27
E SERCIZIO 4 Introduciamo le variabili aleatorie y ik Il passo E dellalgoritmo corrisponde al calcolo di:
28
E SERCIZIO 4 Ma ricordiamo che
29
E SERCIZIO 4 Il passo M Definizione dei vincoli: Sempre vero
30
E SERCIZIO 4 Utilizziamo, quindi, i moltiplicatori di Lagrange
31
E SERCIZIO 4 Derivando su π
32
E SERCIZIO 4 Derivando sui parametri di θ, e ricordando che Allora:
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.