Verso le prove Invalsi nella classe V secondaria di II grado Mariangela Chimetto Simone Banchelli Padova 4 aprile 2017
Organizzazione dei lavori Prima parte: Analisi statistica e analisi didattica. Come nasce un fascicolo, attraverso la «storia» di una domanda. PAUSA Seconda parte: analisi, anche in verticale, di alcune domande dalla secondaria di I grado …. alle matricole universitarie.
Un delicato equilibrio Analisi didattica Analisi statistica
Un delicato equilibrio Analisi didattica Analisi statistica QDR e Indicazioni Nazionali e Linee Guida Analisi classica IRT
Una prima analisi didattica: l'etichettatura degli autori Ogni domanda è accompagnata da un'etichettatura nella quale si descrivono le caratteristiche fondamentali della domanda evidenziate in una prima analisi didattica
Classe Descrive il livello (per esempio L13, tredicesimo anno di scuola) e la tipologia di indirizzo al quale la domanda è rivolta. Per il Livello 13 si prevede una suddivisione della popolazione scolastica in fasce, con diversificazione delle domande: Istituti Professionali Istituti Tecnici Economici Istituti Tecnici Tecnologici Licei Scientifici Licei non Scientifici
Ambito Viene descritto l'ambito prevalente del quesito. Gli ambiti indicati nei Quadri di Riferimento sono: NU: Numeri SF: Spazio e Figure RF: Relazioni e Funzioni DP: Dati e Previsioni
Tipologia MC (scelta multipla) MCC (scelta multipla complessa: V/F) RU (risposta univoca) RC (richiesta di indicazione di calcoli , procedimenti,…) RG (richiesta di giustificazione) CL (cloze, sono quesiti in cui si richiede il completamento di frasi, calcoli o espressioni mediante l'utilizzo di elementi forniti nel testo)
Risposta corretta Nel caso delle domande aperte, oltre alla risposta corretta vengono indicate le risposte ritenute accettabili per la costruzione della grigia di correzione. Ad esempio, va specificato il margine di errore tollerato nel caso di un calcolo approssimato.
Scopo della domanda Descrive sinteticamente quello che si vuole misurare/valutare con il quesito. In questo campo viene analizzato anche il motivo della scelta dei distrattori. Esempi: saper confrontare due grafici che rappresentano dati espressi in modo differente riconoscere che la somma di due quadrati è una quantità non negativa
Traguardo/Dimensione Le domande sono classificate secondo una dimensione trasversale legata ai Traguardi per lo sviluppo delle competenze. Ogni domanda viene collegata a un traguardo delle Indicazioni Nazionali e i traguardi sono a loro volta accorpati in Dimensioni, che sono Conoscere (1), Risolvere problemi (2) Argomentare (3).
Riferimenti alle indicazioni I contenuti del Quadro di Riferimento sono stati classificati ed etichettati con sigle, che permettono di risalire alla voce delle Indicazioni Nazionali o delle Linee Guida cui si riferiscono. Per ogni quesito, si indica l'etichetta relativa al contenuto prevalente
L'etichettatura viene proposta dagli autori della domanda, continuamente verificata ed eventualmente adattata durante tutte le fasi del processo di produzione delle prove Permette di tenere sotto controllo gli aspetti didattici della domanda, e di costruire prove didatticamente complete, varie ed equilibrate
Un delicato equilibrio In che modo l’analisi statistica delle proprietà psicometriche di una domanda può favorire un progressivo miglioramento nella sua formulazione ? Come trovare il giusto equilibrio nella produzione di buone domande da punto di vista psicometrico e significative per l’apprendimento della matematica?
Le prove INVALSI Non è detto, infatti, che una domanda «ricca» e interessante dal punto di vista didattico sia adatta a una prova INVALSI. STANDARDIZZATA «OGGETTIVA» Permette il confronto e la comparazione diretta dei dati La correzione avviene secondo un protocollo prestabilito
Perché il pre-test Il pre-test è una prova sul campo. Il suo scopo principale è quello di valutare la validità e l’affidabilità delle domande. Alla luce dei risultati del pre-test viene poi composto il fascicolo per l’indagine principale.
Analisi statistica Teoria classica: - indice di discriminatività - indice di difficoltà IRT (Item Response Theory): - indice di FIT - analisi delle curve caratteristiche
Teoria classica Indice di discriminatività: indica la capacità di ciascuna domanda di distinguere i diversi livelli di abilità degli studenti utilizzando come stima dell’abilità il punteggio alla prova. Coefficiente di correlazione biseriale: in una domanda che funzioni bene tale indice deve essere positivo per la risposta corretta e negativo per gli altri distrattori. Indica la capacità di ciascun distrattore di intercettare i diversi livelli di abilità degli studenti. Indice di difficoltà: corrisponde alla proporzione di risposte corrette. Tanto più le domande appartengono a livelli di difficoltà diversi, tanto più la prova sarà in grado di rilevare diversi livelli di abilità.
Item Response Theory (1/2) La teoria classica presenta il limite di non riuscire a stimare indipendentemente l’abilità degli studenti e la difficoltà delle domande. L’INVALSI utilizza il modello di Rash (a 1 parametro) che permette di superare tale limite.
Item Response Theory (2/2) Stima probabilistica: uno studente con un certo livello di abilità ha una probabilità maggiore di rispondere in maniera corretta a una domanda rispetto un altro studente con livello di abilità inferiore. La probabilità di rispondere correttamente a una domanda decresce per livelli di abilità bassi
L’indice di FIT Garantisce la congruenza tra i dati osservati e gli assunti teorici del modello: studente con abilità maggiore ha maggiore probabilità di superare una domanda rispetto studente con abilità minore uno studente dovrebbe avere maggior probabilità di superare un item facile rispetto un item difficile
La valutazione del FIT Le soglie accettabili su un grande campione non seguono delle regole precise, ma si rifanno alla pratica empirica. L’INVALSI ritiene accettabili le domande con un indice di FIT compreso tra 0,80 e 1,20. Tanto più l’indice è approssimato a 1, tanto più i dati osservati sono congruenti con il modello teorico.
Indice difficoltà domande IRT Esprime il livello di difficoltà della domanda in modo indipendente dall’abilità degli studenti che hanno affrontato la prova. L’indice è espresso con la stessa unità di misura (logit) dell’abilità degli studenti. La difficoltà dell’item e l’abilità dello studente sono indipendenti ma confrontabili Importante per pre-test
Stud. con abilità intermedie L’unità di misura La difficoltà di una domanda e l’abilità di uno studente possono assumere valori infiniti che per comodità di interpretazione vengono ricondotti a una scala con valori tra -3 e +3. Stud. con abilità basse Stud. con abilità intermedie Stud. con abilità alte -3 +3 Domanda facile Domanda intermedia Domanda difficile
Curve caratteristiche: alcuni esempi (1/3) Domanda adeguata L’opzione corretta (in rosso) è sempre crescente al crescere dell’abilità. Esistono inoltre valori di abilità bassi per cui sono preferibili le altre opzioni che tendono a decrescere al crescere dell’abilita. Da un certo valore di abilità in poi è sempre preferibile l’opzione corretta In ordinata è riportata la probabilità di scegliere l’opzione in funzione dell’abilità. Ogni curva rappresenta un’opzione di risposta, quella corretta è rappresentata in rosso
Curve caratteristiche: alcuni esempi (2/3) Domanda con qualche criticità L’opzione corretta cresce e poi cala per livelli di abilità più elevati pur rimanendo preferibile
Curve caratteristiche: alcuni esempi (3/3) Domanda non adeguata L’opzione corretta è sempre preferibile. I distrattori hanno poca probabilità di essere scelti, dati qualsiasi livello di abilità
Un esempio
OPZIONE CORRETTA Distrattori Discriminatività Fit Difficoltà Correlazione > 0
COME NASCE UN FASCICOLO? CHI PREPARA I QUESITI?
La costruzione di un fascicolo di Matematica Produzione delle domande Selezione e classificazione Costruzione dei fascicoli per il pre-test Prova sul campo Analisi statistica Analisi didattica Fascicolo definitivo Nicoletta Nolli
La storia di un quesito: un esempio DOBBIACO luglio 2013 Scuola autori: 95 docenti di Matematica nei 4 livelli
La storia di un quesito: un esempio AUTORE Nicoletta Nolli
La classificazione degli autori
Il gruppo di livello LIV.08 Preparano una prima griglia di correzione Ottobre –dicembre 2013 I gruppi di livello selezionano le domande, le rivedono e compongono due fascicoli per il pretest Preparano una prima griglia di correzione
La storia di un quesito: un esempio MODIFICATA DAL GRUPPO DI LIVELLO 1 2 In questo caso sono rimaste uguali le figure vengono in parte riformulate le opzioni MODIFICATA DAL GRUPPO DI LIVELLO
La costruzione di un fascicolo di Matematica Gennaio Marzo 2014 I fascicoli vengono composti in 4 versioni con le domande ruotate per blocchi, editati, ricontrollati e stampati 1 Aprile maggio 2014 I fascicoli vengono pretestati su un campione casuale rappresentativo pari a 389 studenti 2
Analisi statistica del pretest Fit: relazione fra dato osservato e dato ipotizzato =1 Numero studenti Indice di discriminazione (>0,20) Difficoltà: -3,+3 Correlazione punto biseriale. Negativa per le risposte sbagliate Positiva per quella giusta FIT alto (1,09): l’andamento osservato della domanda non si adatta completamente al modello teorico ipotizzato Domanda difficile (1,3) e poco discriminante (0,11) Problemi di significatività del terzo distrattore Qui devo trovare spiegazione più approfondita leggendo anche il grafico della dia successiva Il distrattore 3 acchiappa anche quelli con abilità elevate
Critico ! Analisi statistica del pretest Probabilità di rispondere correttamente in funzione dell’abilità Critico !
La storia di un quesito: un esempio
La storia di un quesito: un esempio Il contenuto matematico del quesito è rilevante . Viene, quindi, cambiato in modo da ridurre le criticità rilevate. Si cambiano i contenitori NUOVA
La storia di un quesito: un esempio si cambiano i distrattori non si chiede più la giustificazione Nicoletta Nolli
La costruzione di un fascicolo di Matematica FEBBRAIO – MAGGIO 2015 Il fascicolo: editing, controllo e rilettura esterna. Stampa e spedizione GIUGNO – prima settimana di LUGLIO 2015 Somministrazione censuaria, ma controllata nelle classi campione Analisi dei dati del campione
La costruzione di un fascicolo di Matematica 9 luglio 2015 Presentazione e pubblicazione del rapporto coi risultati Pubblicazione delle guide (poi integrate coi risultati)
Analisi statistica del pretest discriminatività difficoltà 9 luglio 2015 Fit Fit migliorato (da 1,09 a 1,03) Discriminatività (Item-Rest Cor) da 0,11 a 0,25 Difficoltà sulla scala di Rasch da 1,3 a 1,66 (più difficile) ma da 9,77% a 19,58%
Analisi statistica del pretest 9 luglio 2015 Anche il grafico è nettamente migliorato!
La GUIDA 9 luglio 2015 Nicoletta Nolli
Fine prima parte …..