Ambito territoriale Roma 1 Formazione docenti V Incontro – 27-28 settembre 2017 Valutazione e miglioramento Come si trattano e analizzano i risultati delle prove. Item analisi classica e IRT, dalla misurazione alla valutazione, come si interpretano i risultati Invalsi, come si attiva un sistema di valutazione di istituto Giorgio Asquini – Sapienza Università di Roma Con il supporto di Francesca Bordini, Ilaria Bortolotti, Marta Cecalupo, Licia Re
L’item analisi classica Messa a punto nel corso del ‘900 Spearman, Novick Fondata sulla presunzione di validità della prova Il punteggio dello studente corrisponde a una stima di abilità in un determinato ambito Considera le differenze esistenti fra punteggio ottenuto e non ottenuto (dicotomica) Necessario un pretrattamento delle prove
Costruire la tabella per l’item analisi Considerare gli spazi necessari per gli item (10) e per gli studenti (19) Ordinare gli studenti secondo il punteggio totale Prevedere uno spazio per la chiave di risposta
Trascrizione delle risposte …ma non se uso il foglio elettronico per l’inserimento Trascrivere le risposte di ogni studente per ogni item E’ possibile lasciare in bianco le risposte corrette…
Trascrizione delle risposte Trascrivere le risposte di ogni studente per ogni item E’ possibile lasciare in bianco le risposte corrette Segnalare anche le omissioni
Conteggio delle risposte Contare le risposte per ogni alternativa Trascrivere il totale nello spazio specifico… …meglio in percentuale (2*100/19)
Analisi dei distrattori Un distrattore non dovrebbe essere più scelto della risposta corretta I distrattori risultano tanto più efficaci tanto più sono scelti Un distrattore non/poco scelto non funziona
L’indice di facilità Può variare fra 0 e 1 f = n n Misura la facilità/difficoltà di risposta dell’item f = Totale studenti Risposte esatte
L’indice di facilità Può variare fra 0 e 1 Misura la facilità/difficoltà di risposta dell’item f = 19studenti =0,47 9 esatte f = n f = n n
Le soglie dell’indice di facilità Ma non basta la facilità per capire se l’item funziona… Facilità accettabile sotto a 0,75 Difficoltà accettabile sopra a 0,25 Facilità ottimale intorno a 0,50 0,90 0,10
L’indice di discriminatività Consideriamo le risposte del terzo di studenti meno bravi Confrontiamole con quelle del terzo di studenti più bravi Attesa: gli studenti migliori dovrebbero rispondere meglio
L’indice di discriminatività Misura la capacità dell’item di distinguere i bravi dai meno bravi d = EstremoSup – EstremoInf n Estremo Può variare fra -1 e 1 d = 0-n n d = n-0 Si misura anche con la correlazione Punto biseriale
L’indice di discriminatività Misura la capacità dell’item di distinguere i bravi dai meno bravi d = 5 – 1 = 0,67 6 Può variare fra -1 e 1 d = 0-n n d = n-0 n -0,17 -0,50
La soglia dell’indice di discriminatività Valori negativi risultano inaccettabili Valori inferiori risultano critici La discriminatività deve essere superiore a 0,30 Se calcolato con il punto biseriale la soglia può scendere a 0,20
Riepilogo dell’analisi della prova OK: 1 e 6 Migliorabili: 2 e 7 Accettabili: 3 e 9 Critici: 4, 5, 8 e 10
Dall’item analisi ai punteggi degli studenti Conservare tutti gli item? Dipende dagli obiettivi della valutazione Ogni risposta corretta, un punto Ogni risposta sbagliata……. E le omissioni? L’andamento del gruppo: misure di tendenza centrale, misure di dispersione, analisi di tendenza Confrontare prove diverse: normalizzazione dei punteggi
L’analisi dei risultati L’operazione preliminare a queste analisi è quella dell’attribuzione dei punteggi alle risposte date da ogni individuo alla prova e quindi del calcolo del numero di risposte esatte (punteggio grezzo). Operazione che consiste nell’assegnare uno o più punti alle risposte esatte dei diversi quesiti che costituiscono la prova in relazione alla loro difficoltà.
L’analisi dei risultati Per analizzare i risultati di una prova si: a) calcolano le misure di tendenza centrale e dispersione: media e deviazione standard, per verificare l'andamento complessivo del gruppo; Calcolo della media 5,68
L’analisi dei risultati Per analizzare i risultati di una prova si: a) calcolano le misure di tendenza centrale e dispersione: media e deviazione standard, per verificare l'andamento complessivo del gruppo; Calcolo deviazione standard (s), o scarto quadratico medio 2,10
L’analisi dei risultati Per analizzare i risultati di una prova si: a) calcolano le misure di tendenza centrale e dispersione: media e deviazione standard, per verificare l'andamento complessivo del gruppo; CdV = s*100 media Calcolo coefficiente di variazione In pratica si tratta del valore percentuale della deviazione standard rispetto alla media 36,97
L’analisi dei risultati Per analizzare i risultati di una prova si: a) calcolano le misure di tendenza centrale e dispersione: media e deviazione standard, per verificare l'andamento complessivo del gruppo; b) trasformano i punteggi grezzi in punteggi standardizzati; ? Punteggi standardizzati Punteggio z = punteggio grezzo – punteggio medio deviazione standard 1 – 5,68 = -2,23 2,10 grezzo 1 3 4 5 6 7 8 9 10 z -2,23 -1,28 -0,8 -0,32 0,15 0,63 1,10 1,58 2,06
L’analisi dei risultati Per analizzare i risultati di una prova si: a) calcolano le misure di tendenza centrale e dispersione: media e deviazione standard, per verificare l'andamento complessivo del gruppo; b) trasformano i punteggi grezzi in punteggi standardizzati; Punteggi standardizzati Punteggio T = 50-10z 50 +10*2,23 = 27,7 grezzo 1 3 4 5 6 7 8 9 10 z -2,23 -1,28 -0,8 -0,32 0,15 0,63 1,10 1,58 2,06 T 27,7 37,2 42 46,8 51,5 56,3 61 65,8 70,6
L’analisi dei risultati Per analizzare i risultati di una prova si: a) calcolano le misure di tendenza centrale e dispersione: media e deviazione standard, per verificare l'andamento complessivo del gruppo; b) trasformano i punteggi grezzi in punteggi standardizzati; c) distribuiscono i punteggi su una scala pentenaria, in modo da individuare 5 fasce di abilità. Punteggi standardizzati Punteggio T = 50-10z 50 +10*2,23 = 27,7 grezzo 1 3 4 5 6 7 8 9 10 z -2,23 -1,28 -0,8 -0,32 0,15 0,63 1,10 1,58 2,06 T 27,7 37,2 42 46,8 51,5 56,3 61 65,8 70,6
L’analisi dei risultati Per analizzare i risultati di una prova si: a) calcolano le misure di tendenza centrale e dispersione: media e deviazione standard, per verificare l'andamento complessivo del gruppo; b) trasformano i punteggi grezzi in punteggi standardizzati; c) distribuiscono i punteggi su una scala pentenaria, in modo da individuare 5 fasce di abilità. Punteggi standardizzati Punteggio T = 50-10z 50 +10*2,23 = 27,7 grezzo 1 3 4 5 6 7 8 9 10 z -2,23 -1,28 -0,8 -0,32 0,15 0,63 1,10 1,58 2,06 T 27,7 37,2 42 46,8 51,5 56,3 61 65,8 70,6 Fasce E D C B A
Il passaggio ai voti Cinque fasce con sufficienza fissata a 3 1 2 3 4 5 Aree problematiche + - ½ -- … 4 5 6 7 8 . . . . . Valutazione scolastica Ragionare per fasce, non per punti. Denominare le fasce con i voti scolastici. Se opportuno estendere la parte alta della scala fino a 10
Il passaggio ai voti Cinque fasce con sufficienza fissata a 3 1 2 3 4 5 Aree problematiche + - ½ -- … 4 5 6 7 8 9 10 . . . . . Valutazione scolastica Ragionare per fasce, non per punti. Denominare le fasce con i voti scolastici. Se opportuno estendere la parte alta della scala fino a 10
Modello di Rasch e Item Response Theory (IRT) Riflessione avviata negli anni ’40 (Lawley): come ottenere misure da ogni quesito? Modello elaborato da Rasch: probabilità di risposta dipendono dalla difficoltà dell’item e dall’abilità del rispondente L’abilità misurata dalla prova è detta tratto latente (IRT=LTT Latent Trait Theory) Stima la coerenza degli item (e degli studenti) con il tratto latente (presupposto di validità)
Un nuovo modo di fare item analisi Dall’Indagine IEA Reading Literacy i punteggi nelle prove vengono calcolati sulla base del modello di Rasch Metodo di analisi delle domande basato su un modello probabilistico che consente di misurare con la stessa scala le due variabili che vengono osservate contemporaneamente da una prova. Difficoltà della domanda Abilità di chi risponde alla domanda Per convenzione nelle indagini internazionali i punteggi vengono presentati su una scala che ha media 500.
Curva caratteristica dell’item Unità di misura è il logit: logaritmo naturale del rapporto tra risposte corrette ed errate La curva logistica rappresenta le probabilità di una risposta corretta per studenti di diverso livello di abilità (theta) Probabilità della risposta Misura della abilità θ
Come si fa l’item analisi IRT Usare carta e penna Se ci riuscite fatemi sapere Calcoli complessi: necessario il supporto informatico Do you speak english? Scegliere il modello: -Rasch “doc” (considera solo la facilità/difficoltà) -2 parametri (considera anche la discriminatività) -3 parametri (considera anche la risposta casuale)
Tabella IRT (2 parametri) www.assess.com XCALIBRE Analysis from Data File: C:ESERDATI.TXT Date: Oct 13, Time: 9.21 ITEM ANALYSIS Endorsement Rate Item-Theta Corr. Item 1 2 3 4 1 2 3 4 ---- --- --- --- --- --- --- --- --- 1 11 26 47~ 16 -7 -31 52~ -27 2 79~ 5 16 0 59~ -12 -58 0 3 5 47 21 26~ 22 -14 -40 65~ 4 21 16 53~ 11 -51 30 29~ -15 5 -- Deleted -- 6 16 16 53~ 16 -27 -38 68~ -28 7 0 16 11 74~ 0 -19 -44 47~ 8 32 53 5~ 11 9 0 54~ -53 9 58~16 21 5 68~ -45 -36 -10 10 -- Deleted -- OK: 1, 6 Quasi: 3, 9 Problemi: 2, 7 Critici: 4, 5, 8, 10
Tabella IRT (Rasch) www.winsteps.com OK: 1, 6 Quasi: 3, 9 TABLE 14.1 C:\eserdati.txt Oct 14 17:31 - MINISTEP INPUT: 19 persons, 10 items MEASURED: 19 persons, 10 items, 2 CATS +-----------------------------------------------------------------------------------+ item STATISTICS: ENTRY ORDER |ITEM RAW MODEL| INFIT | OUTFIT | PTMEA| | | SCORE COUNT MEASURE S.E. |MNSQ ZSTD |MNSQ ZSTD|CORR.| item| |----------------------------------------+-------------+--------------+-----+-----| | 1 7 16 54.99 5.64|1.12 .6|1.01 .1| . 53| 1 | | 2 13 16 34.13 6.93| .84 -.3| .61 -.3| .59| 2 | | 3 3 16 69.89 6.98| .96 .0| .72 -.2| .63| 3 | | 4 8 16 51.87 5.59|1.51 2.2|1.66 1.8| .33| 4 | | 5 16 16 7.14 18.44| MIN.ESTIM.MEASURE | 5 | | 6 8 16 51.87 5.59| .77 -1.1| .67 -1.0| .67| 6 | | 7 12 16 38.48 6.31|1.15 .6| .95 .1| .48| 7 | | 8 0 16 96.75 18.25| MAX.ESTIM.MEASURE | 8 | | 9 9 16 48.77 5.61| .73 -1.4| .63 -1.1| .67| 9 | | 10 12 12 9.13 18.64| MIN.ESTIM.MEASURE | 10 | |---------------------------------------+---------------+-------------+-----+-----| | MEAN 8.8 15.6 46.30 9.80|1.01 .1| .89 -.1| | | | S.D. 4.5 1.2 25.24 5.68| .25 1.1| .34 .9| | | OK: 1, 6 Quasi: 3, 9 Problemi: 2, 7 Critici: 4, 5, 8, 10
Curva logistica di un item efficace Misura della abilità θ Probabilità della risposta Item 6
Curva logistica di un item critico Misura della abilità θ Probabilità della risposta Item 4
Dalla scala IRT ai livelli Difficoltà del quesito (punteggio sulla scala) Descrizione dei quesiti 727 ANALIZZARE diversi casi particolari e FARLI RIENTRARE nelle categorie fornite in un DIAGRAMMA AD ALBERO in cui parte delle informazioni rilevanti sono contenute nelle note a piè di pagina (punteggio pieno, 2) 631 LOCALIZZARE informazioni in un DIAGRAMMA AD ALBERO servendosi di informazioni contenute in una nota a piè di pagina (punteggio pieno, 2) 542 INFERIRE l'esistenza di un RAPPORTO DI CARATTERE ANALOGICO tra due fenomeni di cui si parla in una LETTERA aperta 486 VALUTARE l'adeguatezza di un DIAGRAMMA AD ALBERO in relazione a determinati obiettivi 445 Distinguere fra variabili e CARATTERISTICHE STRUTTURALI in un DIAGRAMMA AD ALBERO 392 LOCALIZZARE una singola informazione espressa in modo letterale in un TESTO dotato di una chiara struttura testuale 356 RICONOSCERE l’ARGOMENTO di un articolo dotato di un sottotitolo chiaro e di una considerevole quantità di informazioni ridondanti Livello 1 2 3 4 5 Punteggi Da 335 a 407 Da 408 a 480 Da 481 a 552 Da 553 a 625 Più di 625
Dalla scala IRT ai livelli Punteggio dello studente Quesito di 367 punti (livello 1) Quesito di 508 punti (livello 3) Quesito di 567 punti (livello 4) Quesito di 652 punti (livello 5) 517 (livello 3) 89% 64% 48% 27% Uno studente ha il 62% di probabilità di risolvere quesiti corrispondenti al suo punteggio Il trattamento delle omissioni Uno studente che si trova sulla soglia del suo livello ha il 50% di probabilità di risolvere quesiti del livello superiore Livello 1 2 3 4 5 Punteggi Da 335 a 407 Da 408 a 480 Da 481 a 552 Da 553 a 625 Più di 625
L’IRT e i punteggi degli studenti 10 9 8 7 6 5 4 3 1 Classica 16 8 14 10 2 13 4 18 15 1 3 11 19 6 17 9 12 5 7 Studenti 1164 693 607 621 560 555 444 549 499 458 450 495 448 440 392 323 -173 IRT
Risultati Invalsi 2015-16 III media - Matematica
Gestire, condividere, comprendere le informazioni Costruire un archivio di quesiti: Materiali utilizzati Dati (tempi, punteggi, ecc) Commenti utilizzatori Definire ambiti e scopi: Ingresso/uscita, formative Classe, livello, scuola Comprendere l’analisi Distinguere le competenze: Costruire prove Somministrare prove Analizzare prove Insegnante Esperto
La piattaforma di riferimento (6 ore online) - Moodle, della Sapienza (https://elearning2.uniroma1.it/) Corso dedicato (“Ambito 1 – Valutazione”) Iscrizione individuale Deposito di materiali (documentazione) Strumenti di collaborazione per i lavori di gruppo Spazio informativo sulla valutazione (non solo) Spazio di dibattito sulla valutazione (non solo)
Inviare proposte a giorgio.asquini@uniroma1.it Gli obiettivi del corso Sopravvivere, pur assolvendo gli impegni formativi Verificare le credenze personali sulla valutazione (attraverso il confronto) Imparare/applicare qualcosa di nuovo/utile Aumentare il livello di motivazione circa l’attività didattica Vaccinarsi dal burn out Capire il senso delle prove Invalsi Conoscere colleghi (possibilmente simpatici) e creare una rete di contatti Inviare proposte a giorgio.asquini@uniroma1.it E se funziona…. Attivare iniziative di Ricerca-Formazione con l’università
Grazie per l’attenzione Andiamo nei gruppi Ambito territoriale Roma 1 Formazione docenti V Incontro – 27-28 settembre 2017 Valutazione e miglioramento Grazie per l’attenzione Andiamo nei gruppi Come si trattano e analizzano i risultati delle prove. Item analisi classica e IRT, dalla misurazione alla valutazione, come si interpretano i risultati Invalsi, come si attiva un sistema di valutazione di istituto Giorgio Asquini – Sapienza Università di Roma Con il supporto di Francesca Bordini, Ilaria Bortolotti, Marta Cecalupo, Licia Re