La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Valutazione delle Prestazioni di un Classificatore Performance Evaluation.

Presentazioni simili


Presentazione sul tema: "Valutazione delle Prestazioni di un Classificatore Performance Evaluation."— Transcript della presentazione:

1 Valutazione delle Prestazioni di un Classificatore Performance Evaluation

2 Valutazione delle Prestazioni Una volta appreso un classificatore è di fondamentale importanza valutarne le prestazioni La valutazione delle prestazioni richiede un attento esame del problema e delle componenti per cui ha senso effettuare una valutazione E necessario utilizzare in modo ragionato le misure di valutazione disponibili Giustificare perché utilizzare una misura piuttosto che unaltra o perché complementare una misura con unaltra al fine di avere un quadro completo delle prestazioni

3 Modalità di test di un classificatore Sul training set stesso overfitting! Su un test set disgiunto dal training set Mediante cross validation Suddivido il training set in k sottoinsiemi (k-fold) Testo il classificatore k volte allenandolo su k-1 sottoinsiemi e testandolo sul sottoinsieme rimanente Le prestazioni complessive possono essere calcolate mediando sui k esperimenti k = 10 risulta sperimentalmente un buon numero di fold Mediante split Suddividiamo linsieme di dati disponibile in training e test set (normalmente il primo è più grande del secondo, es. 66% e 34%)

4 Matrice di Confusione Applicando il classificatore al test set possiamo visualizzare la distribuzione delle istanze rispetto alla classificazione predetta e a quella reale Utilizziamo la cosiddetta matrice di confusione Es. se la classificazione è binaria: TP = true positive TN = true negative FN = false negative FP = false positive TP FN FP TN Classe predetta Positivo Negativo Classe reale Positivo Negativo

5 Misure per valutare le prestazioni (1) Test Set T Istanze positive Istanze negative Istanze con predizione positiva TP TN FP FN

6 Misure per valutare le prestazioni (2) Precisione P = TP/(TP+FP) Percentuale di predizioni positive corrette Test Set T Istanze positive Istanze negative Istanze con predizione positiva TP TN FP FN

7 Misure per valutare le prestazioni (3) Recall R = TP/(TP+FN) Percentuale di istanze realmente positive classificate come positive Test Set T Istanze positive Istanze negative Istanze con predizione positiva TP TN FP FN

8 Misure per valutare le prestazioni (4) TP rate = TP/(TP+FN) = Recall Percentuale di istanze realmente positive classificate come positive Test Set T Istanze positive Istanze negative Istanze con predizione positiva TP TN FP FN

9 Misure per valutare le prestazioni (5) FP rate = FP/(FP+TN) Percentuale di istanze realmente negative classificate erroneamente come positive Test Set T Istanze positive Istanze negative Istanze con predizione positiva TP TN FP FN

10 Misure per valutare le prestazioni (6) Accuratezza = (TP+TN)/(TP+TN+FP+FN) Percentuale di istanze sia positive sia negative classificate correttamente Test Set T Istanze positive Istanze negative Istanze con predizione positiva TP TN FP FN

11 F1 measure F1 = 2PR / (P+R) E una media armonica tra precisione e recall F1

12 Come utilizzare le misure Quando utilizzare la accuracy Quando ho un problema multiclasse e tutte le classi sono di interesse Quando ho un problema binario, le due classi sono bilanciate e interessanti Quando utilizzare P, R e F1 Se c'è almeno una classe non interessante Se voglio studiare landamento del classificatore su una classe in particolare

13 Esempio 1 Classificazione binaria Esempio: il classificatore emette sempre classificazione negativa Accuracy = 0.95 P = 0 R = 0 Test Set T Istanze positive Istanze negative 95% 5%

14 Esempio 2 Classificazione binaria Esempio: il classificatore emette sempre classificazione positiva Accuracy = 0.05 P = 0.05 R = 1 Test Set T Istanze positive Istanze negative 95% 5%

15 Esempio 3 Classificazione binaria Accuracy = 50/100 = 0.5 P = 50/70 = 0.71 R = 50/80 = 0.62 Test Set T Istanze positive Istanze negative 20% 80% 70% istanze classificate come positive (di cui 20% FP e 50% TP) 70% = 20%+50%

16 Esempio 4 Classificazione n-aria Caso: Il classificatore classifica correttamente tutta la classe di interesse, ma assegna classe rossa agli azzurri e azzurra ai rossi Accuracy = 5/100 = 0.05!!! P (rispetto alla classe verde) = 5/5 = 1 R (rispetto alla classe verde) = 5/5 = 1 Test Set T Classe di interesse 55% 5% 40%

17 Confrontare i Risultati Come verificare se le prestazioni di un classificatore sono simili (ovvero stabili) su insiemi di dati differenti? Dati 2 classificatori C 1 e C 2 : come verificare se, sperimentando sullo stesso test set, otteniamo prestazioni differenti?

18 Significatività Statistica Differenze tra percentuali che saltano allocchio sono grandi abbastanza da essere importanti? Es. supponiamo che due sistemi abbiano prestazioni rispettivamente del 70% e del 73%: cè differenza di prestazioni? Dobbiamo chiederci: le differenze di prestazioni sono statisticamente significative? Significatività statistica: le differenze osservate sono tanto significativamente diverse da 0 che non potrebbero verificarsi per caso?

19 Indipendenza Statistica: Esempio Ascolta Rock Ascolta Classica Totale sotto 40 anni sopra 40 anni Totale Cè differenza (statisticamente significativa) di comportamento nellascolto della musica tra chi è sotto i 40 e chi è sopra i 40 anni sul campione analizzato?

20 Test di Indipendenza Statistica 2 Il test chi quadro verifica lindipendenza tra due variabili H 0 : ipotesi di indipendenza statistica (ipotesi nulla) Es. non ci sono differenze nellascolto di musica secondo la fascia detà La statistica chi quadro consiste nel confronto tra le frequenze osservate f o e le frequenze che ci si aspetterebbero se le due variabili fossero statisticamente indipendenti f e (frequenze attese, expected frequencies) E una misura della deviazione del campione dal valore atteso ed è dimostrato che la distribuzione limite è una distribuzione chi quadro La distribuzione chi quadro describe la distribuzione della varianza di una campione ottenuto da una popolazione con distribuzione normale

21 Che cosè 2 E una distribuzione di probabilità compresa tra 0 e infinito E asimmetrica Con laumentare dei gradi di libertà (diremo dopo cosa sono), la curva diventa sempre più vicina a una distribuzione normale Utilizzata per verificare lindipendenza di due criteri di classificazione

22 Test di Indipendenza Statistica 2 Passi: Stabilire lipotesi nulla Calcolare le frequenze attese (sotto lipotesi nulla) Calcolare la statistica chi quadro Determinare i gradi di libertà e scegliere il livello di significatività statistica per il test Confrontare il valore ottenuto con il valore critico chi quadro

23 Test di Indipendenza Statistica 2 La frequenza attesa è ottenuta dalle distribuzioni marginali delle due variabili:

24 Indipendenza Statistica: Esempio Ascolta Rock Ascolta Classica Totale sotto 40 anni 100 (140*130/210) 30 (70*130/210) 130 sopra 40 anni 40 (140*80/210) 40 (70*80/210) 80 Totale Cè differenza (statisticamente significativa) di comportamento nellascolto della musica tra chi è sotto i 40 e chi è sopra i 40 anni sul campione analizzato?

25 Indipendenza Statistica: Esempio Ascolta Rock Ascolta Classica Totale sotto 40 anni 100 (86,66) 30 (43,33) 130 sopra 40 anni 40 (53,33) 40 (26,66) 80 Totale Cè differenza (statisticamente significativa) di comportamento nellascolto della musica tra chi è sotto i 40 e chi è sopra i 40 anni sul campione analizzato?

26 Test di Indipendenza Statistica 2 Chi quadro è calcolato come segue: Nel nostro esempio:

27 Determinare i gradi di libertà Data una tabella di contingenza a n righe e m colonne, il numero di gradi di libertà è dato da (n-1)*(m-1) Nellesempio: (2-1)*(2-1)=1 grado di libertà Perché? I gradi di libertà rappresentano il numero di celle che sono sufficienti a determine le altre celle della tabella di contingenza supponendo di conoscere i totali marginali Nellesempio, se conosco i totali di righe e colonne, è sufficiente ottenere il valore di una singola cella (gradi di libertà = 1) per poter riempire il resto della tabella

28 Confronto della statistica 2 con il valore critico 2 Dati i gradi di libertà df e il livello di confidenza p, si consulta una tabella standard che ci fornisce il valore critico di 2 dfp = 0.05p = 0.01p =

29 Confronto della statistica 2 con il valore critico 2 Se il 2 calcolato è maggiore di quello critico Rifiutiamo lipotesi nulla (differenze statisticamente significative) Nellesempio, 2 =16,15 > 10,83, per cui la probabilità p che lipotesi nulla sia verificata è < 0,001 Altrimenti, non rifiutiamo lipotesi nulla P(X2 P( ,1 2 )<

30 Alcune regole per la statistica 2 Dati estratti casualmente dalla popolazione in esame Utilizzare conteggi e non frequenze Numero di casi analizzati 30 per rendere il test affidabile e almeno 5 casi per cella nella tabella di contingenza p <= 0.05

31 Applicazione agli esperimenti (1) Supponiamo di applicare lo stesso classificatore a due campioni dello stesso insieme di dati: correttierratitotale campione campione totale

32 Applicazione agli esperimenti (1) Supponiamo di applicare lo stesso classificatore a due campioni dello stesso insieme di dati: correttierratitotale campione 1 80 (80,77) 100 (103,85) 180 campione 2 95 (94,23) 115 (121,15) 210 totale

33 Applicazione agli esperimenti (1) Calcoliamo il valore di 2 Questo valore è ben al di sotto di 3.84, il valore critico di 2 con 1 grado di libertà e p = 0.05 In altre parole, la probabilità dellipotesi nulla è > 0.05, quindi non possiamo rigettarla I risultati dei due esperimenti non differiscono in modo statisticamente significativo Ovvero, il classificatore si comporta più o meno allo stesso modo sui due campioni

34 Applicazione agli esperimenti (2) Supponiamo di applicare due classificatori diversi allo stesso insieme di dati: correttierratitotale classificatore (725) 300 (275) 1000 classificatore (725) 250 (275) 1000 totale

35 Applicazione agli esperimenti (2) Calcoliamo il valore di 2 Questo valore è ben al di sopra di 3.84, il valore critico di 2 con 1 grado di libertà e p = 0.05 In altre parole, la probabilità dellipotesi nulla è < 0.05, quindi possiamo rigettarla Le due prestazioni differiscono in modo statisticamente significativo Ovvero, i due classificatori hanno prestazioni che differiscono in modo statisticamente significativo


Scaricare ppt "Valutazione delle Prestazioni di un Classificatore Performance Evaluation."

Presentazioni simili


Annunci Google