Il nuovo strumento: indicazioni metodologiche Patrizia Falzetti Ricercatore, Responsabile Servizio statistico – INVALSI Antonella Mastrogiovanni Ricercatore - INVALSI Roma, 7 luglio 2010 1
La costruzione degli strumenti Gli strumenti costruiti hanno lo scopo di far emergere abilità e lacune, punti di forza e punti di debolezza per orientare i rispondenti nella costruzione del proprio percorso di istruzione/formazione. Le tappe per la realizzazione degli strumenti Costruzione del questionario Costruzione del fascicolo di prove cognitive Costruzione dei materiali di supporto all’utilizzo Costruzione dello strumento per la condivisione dell’azione valutativa e l’orientamento
Costruzione del questionario Sulla base delle indicazioni raccolte durante i seminari di diffusione sono state apportate modifiche al questionario di raccolta dati di tipo socio demografico. -miglioramento dell’editing per facilitare la lettura da parte del docente/tutor alla persona intervistata -riformulazione di alcune domande che dalle indicazioni sembravano poter generare ambiguità nell’interpretazione -approfondimenti relativi alla sezione tempo libero sull’utilizzo della televisione Quali indicazioni?
Prose e document literacy Costruzione del fascicolo di prove cognitive Individuazione di un gruppo di esperti (uno per ogni ambito) per la produzione di nuove prove (stimolo più domande a esso riferite) di competenza funzionale. Le prove costruite dovevano essere accompagnate dalla descrizione dei box di approfondimento: tipologia di prova, abilità rilevate, descrizione dello stimolo e delle modalità per rispondere alle domande. Prose e document literacy 10 prove Quadro di riferimento l’indagine internazionale di ALL Numeracy 10 prove Problem solving 4 prove
Costruzione del fascicolo di prove cognitive Indicazioni fornite: Quantità di prove da realizzare Struttura delle prove (numero di item per stimolo, per uno stesso stimolo produzione di item che rilevino competenze differenti) Progettazione degli item secondo diversi livelli di difficoltà Correzione dei materiali prodotti FASE 1 Correzione a distanza dei primi materiali prodotti al fine di “aggiustare il tiro”. FASE 2 Correzione in presenza con tutto il gruppo di lavoro
Costruzione del fascicolo di prove cognitive Fascicoli simili nella struttura: -stesso numero di prove stessa articolazione delle prove relativamente agli ambiti di competenza Composizione di due fascicoli Somministrazioni nei CTP e corsi serali (4 CTP e 3 scuole serali) 210 rispondenti in totale Somministrazione pilota Predisposizione di 2 dataset elaborati con la tecnica di Rasch
La Rasch Analysis (RA) La principale caratteristica della RA è quella di ottenere sulla stessa scala la stima della difficoltà di ciascuna domanda e la misura del livello di prestazione del rispondente (abilità del rispondente). Gli strumenti sono: valutazione del potere informativo della prova; stima della difficoltà delle domande; placement relativo delle domande rispetto al punteggio di Rasch assegnato a ciascun rispondente. In particolare abbiamo utilizzato la Rasch Analysis che ci ha permesso di avere su un’unica scala le difficoltà delle domande ed il livello di abilità del rispondente. Gli strumenti adottati sono: la valutazione del potere informativo della prova, la stima delle difficoltà delle domande ed il placement relativo delle domande rispetto al punteggio di Rasch assegnato a ciascun rispondente.
Alpha di Cronbach E’ un indice che assume come valore minimo 0 e tanto più si avvicina ad 1 tanto maggiore è la coerenza complessiva della prova oggetto di interesse. La letteratura psicometrica fornisce alcuni valori di riferimento per la lettura dell’alpha sulla coerenza generale di una prova. Valori di alpha Attendibilità della prova 0,80 o superiore Molto buona Da 0,70 a 0,80 Buona Da 0,50 a 0,70 Modesta Inferiore a 0,50 Inadeguata L’affidabilità che lo strumento sia in grado di produrre gli stessi risultati in misurazioni differenti Il primo indice che viene calcolato ai fini della valutazione della “bontà” del fascicolo somministrato è l’alpha di Cronbach, un indice che assume valori compresi tra 0 ed 1 ed aumenta all’aumentare della coerenza complessiva della prova oggetto di interesse. Abbiamo dei valori di riferimento dati dalla letteratura psicometrica che indicano per ogni valore di alpha l’attendibilità della prova INDICARLI
Fascicolo 1 Coefficient Alpha 0,88 Fascicolo 2 Coefficient Alpha 0,91 Entrambi i fascicoli rientrano nella fascia “Molto buona”.
Test information function E’ la funzione di informazione del test che consente di comprendere se, nel loro insieme, i quesiti proposti sono in grado di fornire una buona valutazione del livello di competenza e abilità conseguito dai rispondenti. L’asse orizzontale rappresenta il livello della variabile latente oggetto di studio (il livello di abilità dei rispondenti) mentre l’asse verticale (informazione) indica il contributo informativo che la prova nel suo complesso è in grado di fornire in corrispondenza di un determinato livello di abilità. L’analisi del test nel suo complesso prosegue con la creazione di due grafici chiamati Funzioni di informazione del test.
Fascicolo 1 -2,5 4,0 Livello di abilità dei rispondenti I valori del tratto orizzontale tra i quali tale funzione assume valori elevati si concentrano tra -2,5 e 4 La prova, nel suo complesso è in grado di stimare con maggiore accuratezza i livelli di competenze dei rispondenti all’interno di questo intervallo, ovvero tra -2,5 e 4. Quindi rispondenti con abilità alte. -2,5 4,0 L’andamento della curva mostra una buona distribuzione del livello di informazione lungo l’asse delle abilità per entrambi i fascicoli. Il fascicolo 1 risulta essere leggermente sbilanciato verso item più difficili mentre il fascicolo 2 risulta essere più equilibrato. Livello di abilità dei rispondenti
Fascicolo 2 -3,5 3,0 Livello di abilità dei rispondenti I valori del tratto orizzontale tra i quali tale funzione assume valori elevati si concentrano tra -3,5 e 3 Fascicolo 2 La prova è più equilibrata della precedente anche se lievemente a favore di rispondenti con basse abilità. -3,5 3,0 Livello di abilità dei rispondenti
Stime della difficoltà delle domande La tavola seguente riporta le stime del parametro di difficoltà degli item, del relativo errore di stima, oltre ad un indice che indica l’adattamento al modello teorico (Fit). Indici di difficoltà inferiori allo zero indicano in generale item non particolarmente difficili, al contrario indici di difficoltà superiori allo zero indicano item più difficili.
Fascicolo 1 In questo fascicolo solo pochi (6) item sono facili. N. Indice di difficoltà ERROR^ MNSQ 2 F1ps2_a_acq. 2,916 0,355 1,03 1 F1ps1_seque. 2,577 0,32 1,06 20 F1d16_bolle. 2,383 0,304 0,9 5 F1d1_check-. 2,123 0,285 1,04 14 F1d10_parco. 1,549 0,254 1,08 26 F1d22_ridsu. 0,93 15 F1d11_parco. 1,125 0,239 1,22 3 F1ps2_b_acc. 1,068 0,238 1,21 6 F1d2_check-. 0,956 0,235 1,09 ------- 27 F1d23_gita_. 21 F1d17_bolle. 0,901 0,234 0,89 4 F1ps3_spedi. 0,219 0,227 16 F1d12_marem. 0,91 8 F1d4_tappet. 0,116 1,2 18 F1d14_parac. -0,351 0,23 0,82 9 F1d5_tappet. -0,404 0,231 0,95 12 F1d8_cinema. 1,19 7 F1d3_check-. -0,458 0,232 1,02 13 F1d9_parco_. -0,791 10 F1d6_tappet. -1,78 0,281 0,71 Item più difficili (Sono indicati con i valori positivi) Fascicolo 1 In questo fascicolo solo pochi (6) item sono facili. Item più facili (Sono indicati con i valori negativi)
Fascicolo 2 Sono pochi (3) gli item particolarmente difficili N. Item Indice di difficoltà ERROR^ MNSQ 2 F2ps2_a_sce. 2,875 0,356 1,08 1 F2ps1_seque. 2,147 0,296 1,19 10 F2d6_frutti. 1,601 0,266 1,02 3 F2ps2_b_ora. 0,897 0,243 0,83 25 F2d21_memor. 0,665 0,239 0,86 23 F2d19_gelat. 0,551 0,237 0,93 20 F2d16_cup_3 0,384 0,236 1,07 15 F2d11_popol. 0,273 0,235 14 F2d10_popol. 0,053 1,24 ------- 22 F2d18_gelat. -0,795 0,244 0,78 9 F2d5_frutti. -0,995 0,25 0,88 5 F2d1_compra. -1,037 0,249 1,09 18 F2d14_cup_1 0,68 17 F2d13_energ. -1,427 0,261 0,97 24 F2d20_memor. 0,84 12 F2d8_gara_n. -1,638 0,269 1,16 4 F2ps3_perco. -1,712 0,272 7 F2d3_compra. -1,863 0,279 1,05 21 F2d17_gelat. -1,942 0,283 0,76 16 F2d12_popol. -2,373 0,306 0,96 Item più difficili Sono pochi (3) gli item particolarmente difficili (Sono indicati con i valori positivi) Fascicolo 2 Item più facili (Sono indicati con i valori negativi)
Item map L’analisi delle stima della difficoltà degli item rimanda, a completamento dell’analisi, alla stima delle abilità dei rispondenti. Interessante a tal fine è la valutazione del placement relativo tra le domande e i punteggi complessivi assegnati a ciascuno studente in base al modello teorico. L’item map è la rappresentazione sulla medesima scala sia dei rispondenti distribuiti secondo la stima della loro abilità sia della distribuzione degli item secondo la stima della loro difficoltà.
Fascicolo 1 Non ci sono item facili Distribuzione degli item in funzione della loro difficoltà Gli item difficili coprono le abilità dei rispondenti Distribuzione delle stime delle abilità dei rispondenti Gli item con un livello di difficoltà basso si posizionano all’estremo inferiore della scala, mentre quelli più difficili all’estremo superiore. Fascicolo 1 Gli item sono riportati con il codice identificativo della prova, mentre le x rappresentano un numero variabile di rispondenti. Non ci sono item facili
Fascicolo 2 Ci sono zone non coperte da item Gli item sono ben distribuiti anche se molti rispondenti agli estremi non hanno item adatti a rilevare la loro abilità Fascicolo 2
Analisi degli item L’analisi si è infine soffermata su ciascun item singolarmente al fine di scegliere quelli migliori per la composizione dello strumento finale. In particolare per ciascun item si è osservata una tabella come quella di seguito indicata ottenendo le informazioni salienti ai fini della scelta.
Indice di discriminazione Item 4 ------ item:4 (F1ps3_spedizione_bici) Cases for this item 105 Discrimination 0.41 Item Threshold(s): 0.22 Weighted MNSQ 1.21 Item Delta(s): 0.22 ------------------------------------------------------------------------------ Label Score Count % of tot Pt Bis t (p) PV1Avg:1 PV1 SD:1 0 0.00 17 16.19 -0.32 -3.45(.001) -0.82 1.05 1 1.00 50 47.62 0.41 4.53(.000) 0.47 1.11 2 0.00 38 36.19 -0.18 -1.83(.070) -0.15 1.30 ============================================================================== Fit Statistica T Risposta corretta Correlazione punto biseriale Percentuale di risposte corrette o indice di difficoltà
Indice di discriminazione/correlazione punto biseriale: indica quanto l’item riesce a discriminare tra rispondenti con alte abilità rispetto a quelli con basse abilità. Nello specifico rappresenta la correlazione tra la probabilità di scegliere una data opzione e l’abilità complessiva del rispondente. Tale legame deve essere negativo per le opzioni di risposta non corrette e positivo solo per quella esatta. Una domanda è ben formulata se, in media, coloro che rispondono correttamente a quella domanda lo fanno anche a buona parte delle altre. Si considerano funzionanti gli item con un valore > 0,35. N.B. Valori negativi di tale indice denotano che l’item non funziona in quanto paradossalmente i meno bravi rispondono bene ed i più bravi rispondono male.
La percentuale di risposte corrette o indice di difficoltà, deve essere compresa tra 25% e 75%. Un item con un indice di difficoltà >75% è da considerarsi molto facile, con un indice di difficoltà<25% è da considerarsi molto difficile. Il Fit deve essere approssimativamente 1 (va verificato che l’eventuale differenza da 1 sia statisticamente significativa e lo si fa controllando la statistica T).
Il nuovo fascicolo di prove cognitive Scelta operata: Partire dal fascicolo 2 per la ricomposizione del fascicolo unico definitivo Eliminare nel fascicolo 2 gli item che non funzionavano bene Sostituire gli item eliminati con quelli della stessa tipologia più efficaci presenti fascicolo 1