CRITERI BASATI SULLE FUNZIONI DI PERDITA
Matrice di Confusione La matrice di confusione è una misura delle proprietà di una regola di classificazione o segmentazione. Essa contiene il numero di elementi classificati correttamente o meno per ciascuna classe. Sulla diagonale principale compare il numero di oggetti classificati correttamente per ciascuna classe, mentre gli elementi extra- diagonali indicano il numero di oggetti classificati erroneamente. Se viene assunto che ciascuna classificazione errata abbia lo stesso costo, la proporzione delle classificazioni non corrette sul totale dei casi rappresentati costituisce il tasso di errore e rappresenta la quantità che deve essere minimizzata.
Matrice di Confusione (Esempio Teorico) Valori Previsti ------------------- Valori Osservati EVENTO (1) NON EVENTO (0) TOTALE EVENTO (1) a b a + b EVENTO (0) c d c + d a + c b + d a + b + c + d
Matrice di Confusione (Interpretazione Teorica) dove: sensitivity = a/(a+b) = proporzione di eventi, previsti come tali specificity = d/(c+d) = proporzione di non eventi, previsti come tali false positives = c/(c+d) = 1 – specificity = d/(c+d): proporzione di non eventi, previsti come eventi ( Errore di II specie) false negatives = b/(a+b) = 1 – sensitivity: proporzione di non eventi, previsti come non eventi (errore di I tipo)
Matrice di Confusione (Esempio) Previsione Classe A Classe B Classe C 45 2 3 10 38 4 6 40
Matrice di Confusione (Interpretazione) Se si suppone che nella matrice di confusione ogni risposta corretta abbia un valore di 1000 Euro e che ogni errore per la classe A abbia un costo di 500 Euro, per la classe B di 1000 euro e per la classe C di 2000 euro, il costo associato alla matrice sarà: (123 * 1000) – (5 * 500) – (10 * 2000) = 88.500 Euro
Curva ROC (Receiver Operating Characteristic) E’ un grafico che misura anche l’accuratezza previsiva di un modello. La Curva ROC è basata sulla matrice di confusione.
Curva ROC (1/2) dove: sensitivity = a/(a+b): proporzione di eventi, previsti come tali 1 – specificity = d/(c+d): proporzione di non eventi, previsti come eventi ( Errore di II tipo)
Curva ROC (Interpretazione) Guardare sempre Indice AUC (Area Under Roc Curve) Tale Indice può assumere un valore massimo pari a 1 REGOLA GENERALE: più l’indice si avvicina al valore 1 più la bontà del modello predittivo svolto in precedenza è maggiore.