La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La valutazione delle competenze linguistiche: concetti modelli metodi

Presentazioni simili


Presentazione sul tema: "La valutazione delle competenze linguistiche: concetti modelli metodi"— Transcript della presentazione:

1 La valutazione delle competenze linguistiche: concetti modelli metodi
Centro per la valutazione e la Certificazione Linguistica (CVCL) Giuliana Grego Bolli Spoleto, 27 novembre 2013 Buon giorno a tutti, permettetemi di ringraziare l’Ispettrice Ponziano per il cortese invito che mi mi ha rivolto e che mi ha dato l’opportunità e il piacere di essere qui con voi oggi. Ringrazio anche gli organizzatori di questo importante evento e tutti i presenti per l’attenzione che vorranno dedicarmi.

2 Questa presentazione in 4 punti
Valutazione (linguistica) in prospettiva disciplinare e contesto italiano Terminologia di base Qualità nella valutazione linguistica Preparazione degli insegnanti: se e quanto gli insegnanti di italiano lingua non materna devono essere competenti e preparati in questo specifico settore (Metodi) Mio compito oggi è quello di parlare di valutazione in prospettiva linguistica, perché questo è il mio mestiere e quello di cui mi occupo da oltre 20 anni in modo esclusivo. Vorrei fare con voi in modo molto sintetico alcune considerazioni introduttive su cinque punti, che ritengo importanti per avere un quadro quanto meno generale sulla valutazione e su ciò che comporta occuparsi di questo specifico settore, credo importante oggi anche in prospettiva plurilinguistica, una valutazione di qualità può infatti contribuire alla promozione del pluringuismo, cos’ come inteso dalla istuzioni europee ai fini della mobilità sia formativa che lavorativa e del dialogo interculturale Cinque punti che poi potrete approfondire, contattandomi se ad esempio vi interessa avere bibliografia o indicazioni su corsi di introduzione a questa che per me è una disciplina in Italia o all’estero.. Il primo punto vuole contestualizzare la valutazione soprattutto ling. anche se certi concetti possono essere più generali, come disciplina e non come pratica dell’insegnante e il contesto italiano , come viene recepita a che punto siamo, entrerei quindi in argomento con un po’ di terminologia per capire meglio di cosa parliamo, il significato delle parole è sempre importante per capire la loro funzione. Parlerei quindi molto brevemente perché l’argomento è enorme di cosa si intende in termini concettuali ed applicati per qualità in valutazione linguistica, passerei quindi a cercare di introdurre diverse tipologie di prove di verifica Vorrei quindi affrontare il tema della preparazione degli insegn soprattutto di italiano lingua non materna in questo settore, se e quanto gli insegnanti devono essere competenti e preparati, che cosa significa per un insegnante essere preparato in questo settore o quanto piuttosto questo settore debba essere demandato ad altri esperti.

3 La Valutazione (non solo linguistica) e il contesto italiano
Mancanza di una “cultura” della valutazione all’interno del sistema educativo italiano (Valutazione come disciplina e non come parte indefinita e indistinta della competenza ed esperienza dell’insegnante) Mancanza diffusa di preparazione specifica, sistematica e professionalizzante degli insegnanti in questo settore Discipline pedagogiche (Pedagogia sperimentale) INVALSI (valutazione esterna) Credo che tutti i colleghi che si sono occupati con me in questi anni di valutazione linguistica, soprattutto in prospettiva certificatorie, anche se molti di loro in modo non esclusivo, concordino con me nell’affermare che non esiste in Italia una “cultura della valutazione” Esiste poi l’INVALSI che è l’Istituto nazionale per la Valutazione e che costituisce per certi versi una valutazione esterna, interna al sistema educativo, ma esterna per certi versi all’insegnamento, forse con troppo poco dialogo e comunicazione con l’insegnamento

4 Perché? (1) Ragioni culturali/filosofiche: opposizione fra empirismo (anglossassone) e neoidealismo (italiano). Il concetto della conoscenza empirica (alla base della ricerca scientifica) non è comune al neoidealismo italiano, che nega sostanzialmente alla scienza valore conoscitivo. Ragioni storico-sociali e linguistiche: l’italiano è stato per secoli lingua letteraria colta e non lingua d’uso diffusa fra la popolazione per cui la la ricerca linguistica in Italia ha una grande tradizione storico filologica, piuttosto che applicata. Il motivo principale sta in due tradizioni culturali e filosofiche opposte: da una parte c’è l’empirismo anglosassone che afferma il concetto della conoscenza empirica (per cui l’esperienza è alla base della conoscenza e non esiste conoscenza senza esperienza) e dall’altra c’è il neoidealismo italiano che nega alla scienza valore conoscitivo. Secondo il neoidealismo italiano la ricerca scientifica descrive cose è fenomeni (quindi porta ad una conoscenza di tipo descrittivo) ma non può essere all’origine della conoscenza. Il neo idealismo italiano che permeato il sistema educativo italiano dalla metà del sec scorso in avanti riconosce all’esperienza il ruolo di fornire informazioni utili per la conoscenza ma non la riconosce come forma essa stessa di conoscenza. Croce considerava la scienza una forma di indagine che formula degli pseudo-concetti, che non hanno valore conoscitivo.

5 Perché? (2) Nel mondo anglosassone all’interno della Linguistica Applicata si è sviluppato un approccio disciplinare alla Valutazione linguistica (Language Testing) (sotto-disciplina) Linguistica applicata, secondo Chris Brumfit (1997): “the theoretical and empirical investigation of real world problems in which language is the central issue” Mancanza di una disciplina di riferimento (valutazione linguistica). Mi piace riportare una definizione di Linguistica applicata di un famoso linguista inglese Christopher Brumfit, sottolineando il concetto di ricerca anche empirica legata all’uso della lingua

6 Qualche riferimento utile per un primo approccio al Language Testing:
ILTA (International Language Testing Association): EALTA (European Language Testing Association): eu.org ALTE (Association of Language Testers in Europe): CVCL (Centro per la Valutazione e le Certificazioni linguistiche – Università per Stranieri di Perugia): Language Testing Language Assessment Quarterly Studies in Language Testing Series Companion to Language Assessment Mi piace riportare una definizione di Linguistica applicata di un famoso linguista inglese Christopher Brumfit, sottolineando il concetto di ricerca anche empirica legata all’uso della lingua

7 Il processo valutativo è di tipo interpretativo/argomentativo
Partiamo dalla performance (dato) di uno studente in una prova Questa performance genera un risultato (punteggio, giudizio, grado, ecc) L’interpretazione del risultato e l’uso che ne viene poi fatto (giustificato su basi teoriche e supportato da evidenze empiriche) va al di là del dato (limitato esempio di performance) e si estende a situazioni di uso della lingua nella vita reale Si procede quindi per inferenze e deduzioni Una prima considerazione che considero di base: La valutazione è un processo, ci ritorneremo a breve facendo un po’ di etimologia delle parole, non è un processo superficiale, nel senso che rimane alla superfice delle cose, o un processo puramente pratico, è un processo logico di tipo interpretativo ed argomentativo che si richiama all’empirismo di cui parlavo pocanzi e all’importanza del dato empirico che proviene dall’esperienza come dato conoscitivo Si preocede quindi per inferenze e deduzioni

8 Un po’ di terminolgia…. verifica, valutazione, test/prova
Inizio sempre dalla terminologia in quanto dal significato delle parole possiamo risalire alla loro funzione. Il termine processo implica che c’è un punto di inizio, c’è un punto di fine e c’è nel mezzo uno sviluppo continuo. Di questo sviluppo ci occuperemo nel dettaglio La verifica è il momento conoscitivo e la valutazione il momento interpretativo.

9 Teminologia: verifica e valutazione
Indicano momenti diversi di un processo complessivo: processo valutativo Sono spesso usati in modo interscambiabile Non c’è valutazione senza verifica, anche se ci può essere verifica senza valutazione Inizio sempre dalla terminologia in quanto dal significato delle parole possiamo risalire alla loro funzione. Il termine processo implica che c’è un punto di inizio, c’è un punto di fine e c’è nel mezzo uno sviluppo continuo. Di questo sviluppo ci occuperemo nel dettaglio La verifica è il momento conoscitivo e la valutazione il momento interpretativo.

10 Terminologia: Verifica
L’accertamento sistematico (che segue principi -norme/standard - sia teorici che di buona prassi condivisi sia dalla comunità scientifica che professionale) ed organizzato delle conoscenze/competenze d’uso/abilità (il cosa) presenti in chi si sottopone alla verifica, vale a dire nei soggetti da valutare (gli studenti/apprendenti) Parlare di accertamento sistematico di abilità e competenze significa parlare di metodi (il come) I metodi/le tecniche/ i formati, di verifica non sono ‘neutrali’ Non esistono metodi “buoni” o “cattivi” in assoluto La verifica è il momento…Già il termine accertamento ci rimanda al concetto di indagine nel nostro caso indagine conoscitiva, che implica per sua natura sistematicità e organizzazione, vale a dire deve essere condotta sulla base sia di principi teorici che di buona prassi. Parlare di principi e norme di standard implica che in termini di costruzioni di prove di verifica gli standards, che garantiscono poi la qualità, sono gli stessi transnazionalmente, valgono cioè per l’italiano come per il tedesco, francese, ecc Parlare di metodi a differenza di tecniche implica la presenza di presupposti teorici. I metodi hanno una grossa incidenza nella performance degli studenti, non sono quindi neutrali, devono essere quindi scelti sulla base del contesto e di cosa intediamo verificare. Se pensiamo ad un processo la verifica è la fase istruttoria. Vediamo subito come vari aspetti sia concatenati e legati l’uno all’altro

11 Terminologia: Valutazione
Raccolta sistematica di informazioni (in parte - si pensi al contesto scolastico - fornite dalla verifica) per poter esprimere un giudizio o assegnare un punteggio In entrambi i casi vengono prese delle decisioni Valutazione è il momento in cui si prendono delle decisioni – potere della valutazione –impatto della valutazione La valutazione è il più potente strumento di comunicazione didattica La valutazione diventa strumento importante in termini di mobilità internazionale e di promozione del pluringuismo La valutazione di informazioni che in parte vengono dalla vaerifica ma solo in parte , si epnsi al contesto scolastico dove tali informazioni possono essere anche di tipo relazionale e partecipativo. La valutazione è il momento in cui si prendono delle decisioni, e questo ci fa già capire il potere della valutazione e l’impatto della valutazioni sugli individui, sui sistemi educativi e più in generale sulla società. In questo senso la valutazione è una responsabiulità, edè certamente

12 Terminologia: Test o prova standardizzata o esame (singolo momento)
Nel dizionario della OUP troviamo questa definizione: “Un breve esame di conoscenze o abilità, che consiste nel rispondere a determinate domande o nel portare avanti determinate attività”

13 Secondo un’accezione più tecnica il termine test/prova/esame
È espressione di un metodo per raccogliere informazioni (legato alla verifica) utilizza procedure standard per la sua costruzione ha come obiettivo accertare conoscenze o abilità è sempre relativo a ‘qualcosa’ che a seconda delle circostanze può essere: la storia, la geografia… la competenza linguistica questo ‘qualcosa’ deve essere definito e descritto (quanto meno “essere nella mente” di chi costruisce il test) Costruire test/prove ci aiuta a riflettere su cosa vogliamo verificare e indirettamente sul nostro stesso insegnamento

14 Chi è coinvolto nel processo valutativo?
Una lista dei possibili utenti (stakeholders) Per cominciare ad introdurre il concetto di qualità parliamo di responsabilità della valutazioner, Chi sono gli utenti della valutazione? Approaches to assessment may be regarded differently by different people involved and interested in the results. Ask them to think who might be interested in an exam – the stakeholders. Quali sono I soggetti in vario modo e da varie prospettive coinvolti nel processo valutativo? Pensateci, scriveteli in un foglio e poi ne parliamo 14

15 Utenti Insegnanti Studenti Famiglie
Istituzioni scolastiche/universitarie Scuole private di lingua Istituzioni governative nazionali ed internazionali Datori di lavoro/Agenzie per l’impiego nazionali ed internazionali/ ordini professionali Ricercatori/mondo accademico Società (es. contesto di immigrazione) Point out that the list includes people who contribute to the production and administration of the exams, those who mark them and those who make use of the results in the form of certificates, scores and qualifications. Ask participants to suggest how their interests in an exam might be different. Expand on this as appropriate e.g. an employer might look for different things in an exam from an academic researcher (scores and what they say about the person vs. scores and what they say about the exam) a school owner would have different concerns (practicality etc. ) from a learner (transparency, ease) a teacher might be interested in the diagnostic aspect of results 15

16 Gli utenti (stakeholders)
coinvolti ci invitano a riflettere sulla responsabilità sociale ed educativa del processo valutativo e sulla necessità di una preparazione e formazione professionale di chi prepara test/prove, di chi li amministra e di chi li corregge e valuta – garanzia della qualità della valutazione Questo lungo elenco e le implicazioni connesse ci aiutono a capire la responsabilità che si accolla chi è coinvolto direttamente nel processo valutativo 16

17 Qualità nella valutazione linguistica

18 Affidabilità (reliability) Autenticità (authenticity)
L’applicazione di questi concetti al processo di produzione di test linguistici costituisce una garanzia di qualità Validità (validity) Affidabilità (reliability) Autenticità (authenticity) Fattibilità (practicality) Equità (fairness) Utilità/spendibilità (usefulness) Impatto (impact) Eticità (ethical test use) Processo di Validazione di un test Parlare di qualità della valutazione linguistica vuol dire oggi parlare dell’applicazione di questi concetti che non vanno più visti come della monadi isolate come parte di quello che oggi viene considerato il processo di validazione di un test. Questi vanno dunque applicati e dobbiamo fornire evidenze e prove della loro applicazioen per garantire la qualità del test. Tutte queste qualità di un test venivano considerate solo una decina di anni fa come separate ed addirittura in antagonismo l’una con l’altra. Adesso tutte fanno parte del cosiddetto processo di validazione di un test e, come dice il nome stesso, la qualità fondamentale da cui tutto dipende è la validità. La qualità fondamentale, che fa da ombrello a tutte le altre è la validità. Discuss what the qualities of fairness are – this is given in more detail later. Tests only language ability (i.e. not knowledge of geography, culture etc). There must be a lack of cultural bias and the test should be accessible to all Each session of an exam is of the same difficulty and set to the same level of difficulty – this also means using accurate assessment and comparability. Exams measure accurately and there is standardisation across marking The exam has a positive effect on classroom teaching methods which means that what is being tested is useful Exams must be available to all at a time and a place that is appropriate. Discuss what the main qualities of usefulness are. what makes a test useful. Establish that a useful test provides a valid diagnostic tool students can use the qualification for other purposes e.g. further study, a job etc. Why would a college recognise an exam? Because of 4 main pillars that support all good exams - VRIP These are the key structures underpinning good exam practice. Divide participants into 4 groups and show next slide. 18

19 Validità La Validità riguarda l’interpretazione dei risultati, le inferenze sui risultati (punteggi, gradi, giudizi) e quindi l’uso che viene fatto del test e rappresenta, generalizzando, la vera, più importante qualità di un test Dalla Validità come concetto teorico e quindi astratto della prospettiva tradizionale si è passati (fine anni ‘80) a parlare di Validazione o meglio di processo di validazione intendendo un’analisi del processo di produzione di un test che fornisca evidenze a supporto delle inferenze sui risultati di un test Il fatto che la validità riguardi le inferenze che vengono fatte sui risultati del test, vale a dire il momento finale implica che tutto ciò che precede vale a dire l’intero processo di produzione di un test (dalla definizione delle caratteristiche dei candidati alla definizione dell’oggetto della verifica-costrutto, al metodo, alla correzione e attribuzione dei punteggi) riguarda la validità e la determina. Se c’è qualcosa che va storto, di sbagliato in questi passaggi, ne soffre la validità, cioè una corretta interpretazione dei risultati.

20 Impatto (Impact) L’effetto/le conseguenze generato/e da un test/prova/esame, sia sull’insegnamento (aspetto educativo-backwash effect), sia sui singoli individui, sia sulla società (aspetto sociale-washback effect). Le conseguenze possono essere sia positive sia negative. Si può parlare di impatto a livello micro (l’individuo) e a livello macro (educazione e società) Sono stati condotti molti studi e ricerche sull’impatto Il concetto di impatto è considerato parte del macro-concetto di validità Soprattutto non si può considerare l’impatto alla fine del processo ma bisogna preoccuparsi dell’impatto al momento iniziale della produzione di un test. Impact: is the effect – preferably positive – which a test has on candidates, and other test users, including society. (Washback).An exam should have a positive impact on individuals and classrooms a positive washback effect on teaching materials & classroom practice a positive impact in wider society 20

21 Eticità I test linguistici non vengono prodotti e soprattutto usati nel vuoto ma all’interno del sistema educativo e della società. Questo li pone a rischio di usi politici e anche di potenziali abusi sulla base del loro potere decisionale e discriminatorio L’unica risposta possibile a questo concreto ed attuale rischio è la professionalità di chi produce, amministra e valuta partendo dalla formazione dei language testers e dal rispetto di codici etici elaborati dalle società scientifiche (ILTA, EALTA) Assessment should be demonstrably fair to all students and not discriminate on grounds that are irrelevant to the achievement of the outcome. Fairness to students means that they should have equal opportunities to demonstrate their achievement of outcomes. This does not imply that they should all be assessed on the same tasks: indeed, achievement of an outcome might be shown in quite varied ways. Fair assessment often means assessing the one outcome in different ways related to the characteristics and circumstances of the students. These may include their gender, ethnicity, language, race, socioeconomic circumstances or geographic location, and their individual personalities, talents and disabilities. What are familiar or helpful contexts for some students will be unfamiliar or unhelpful to others. Assessment should be sensitive and responsive to such differences among students, so that they are not inadvertently placed in a better or worse position to demonstrate their achievement of an outcome. This does not mean diluting or modifying the outcomes themselves: there is nothing inclusive about apparently succeeding but not learning much. While fair assessment does not demand that all students be assessed on the same tasks, judgements about their learning and achievements should clearly reflect the same outcomes to the same standards. (Taken from The Curriculum Council Test only language ability (i.e. not knowledge of geography, culture etc). There must be a lack of cultural bias and the test should be accessible to all 21

22 Cosa fa di un test linguistico (valutazione sommativa) un “buon” test linguistico? (test “interni” o “esterni” ma sempre all’interno di un dato sistema educativo) deve tenere presenti programmi e obiettivi di apprendimento/insegnamento deve integrarsi con l’approccio all’insegnamento sia per i contenuti che per i metodi deve avere un contenuto appropriato (caratteristiche dei discenti, livello) deve motivare deve essere tecnicamente ben costruito deve verificare almeno tutte e 4 le abilità di base (valutazione sia formativa sia sommativa) ( ad es. se non verifichiamo la prod. orale, diamo il messaggio che non è ritenuta importante) Quali caratteristiche o qualità deve avere un buon test linguistico o un test linguistico per poter essere definito buono? Content appropriate to test type, syllabus, level etc Underline the fact that the points on the slide can be summed up under the two headings of ‘Fair’ and ‘Useful’. These are one way of establishing that the exam relates to real life and has a positive wash back effect in the classroom. There are other key points that underpin any good exam. Ask participants what these might be – then show next slide. 22

23 Considerazioni finali sulla valutazione e sulla preparazione degli insegnanti: necessaria/non necessaria, fino a che punto…. Nei confronti della valutazione si ha spesso una sorta di paura…

24 Gli insegnanti devono essere formati/preparati in valutazione?
E’ innegabile che la valutazione faccia parte del processo di insegnamento-apprendimento Si parla di valutazione come del più importante/efficace strumento di comunicazione didattica Cowan (1998) da questa definizione di valutazione: “the engine that drives learning” E’ stato dimostrato che un insegnante dedica da un terzo alla metà del suo tempo di lavoro alla valutazione Si può è essere o meno d’accordo sul fatto che un modo per rilanciare l’apprendimento sia quello di migliorare le procedure valutative, comunque la valutazione è parte integrante del lavoro di un insegnante.

25 Vero ma…. Gran parte degli insegnanti si occupa di valutazione senza aver appreso in modo sistematico i principi di una valutazione consapevole, di qualità e teoricamente fondata Questo fenomeno è trasversale vale anche nel mondo anglosassone (Stigging 2007) Si può è essere o meno d’accordo sul fatto che un modo per rilanciare l’apprendimento sia quello di migliorare le procedure valutative, comunque la valutazione è parte integrante del lavoro di un insegnante.

26 Che cosa può significare per un insegnante avere la necessaria preparazione in valutazione?
Capire come definire chiari obbiettivi di insegnamento/apprendimento Capire quali metodi di verifica usare al fine di raccogliere informazioni affidabili sull’apprendimento degli studenti Capire come usarli Capire come comunicare risultati attendibili/significativi indipendentemente dal modo con cui vengono comunicati: punteggi, gradi, giudizi, ecc Capire come usare la valutazione per massimizzare motivazione e apprendimento, coinvolgendo gli studenti nel processo valutativo Si può è essere o meno d’accordo sul fatto che un modo per rilanciare l’apprendimento sia quello di migliorare le procedure valutative, comunque la valutazione è parte integrante del lavoro di un insegnante.

27 Metodi Soggettivi Oggettivi Diretti Indiretti
Si può è essere o meno d’accordo sul fatto che un modo per rilanciare l’apprendimento sia quello di migliorare le procedure valutative, comunque la valutazione è parte integrante del lavoro di un insegnante.

28 Ci fermiamo qui…. Grazie!

29 C’è una relazione tra valutazione linguistica e insegnamento?
“We believe that language testers can serve linguistic theory by examining the way in which their tests work, how their different components interrelate, and what they reveal about candidates’ language proficiency. Insights from such analysis of test results should contribute to the development of a better understanding of what is involved in knowing and using language” (Alderson and Clapham 1992 Applied linguistics and language testing. Applied Linguistics. 13: 164) E inoltre innegabile che metodi di verifica possono influenzare l’insegnamento in classe, così come nuove teorie sull’apprendimento/ insegnamento influenzano le pratiche valutative Siamo convinti che ….. Quello che si può cogliere da questa analisi

30 Utenti “tecnici” vale a dire chi contribuisce alla produzione somministrazione e valutazione di un test o di un esame Chi produce test/prove (item writers-test producers) Chi amministra/somministra test/prove (test administrators) Chi corregge test/prove scritte e orali e/o chi assegna punteggi o formula giudizi (examiners) Cominciamo con gli utenti tecnici, che rappresentano un po’ le fasi del processo di produzione di un test, soprattutto pensando a contesti di valutazione sommattiva sia esterna sia interna. Molto spesso queste tre tipologie di utenti sono essi stessi degli insegnanti. Point out that the list includes people who contribute to the production and administration of the exams, those who mark them and those who make use of the results in the form of certificates, scores and qualifications. Ask participants to suggest how their interests in an exam might be different. Expand on this as appropriate e.g. an employer might look for different things in an exam from an academic researcher (scores and what they say about the person vs. scores and what they say about the exam) a school owner would have different concerns (practicality etc. ) from a learner (transparency, ease) a teacher might be interested in the diagnostic aspect of results 30

31 E’ possibile distinguere varie tipologie di test linguistici secondo tre possibili categorizzazioni
Uso che viene fatto dei risultati del test: Costruzione del test Espressione dei giudizi e attribuzione dei punteggi relativi al test

32 Uso che viene fatto dei risultati:
Test di piazzamento (placement tests): per assegnare gli studenti a classi di livello diverso, Test di profitto (achievement tests): per stabilire se gli studenti (e il corso) hanno raggiunto gli obiettivi preposti. Test diagnostici: per individuare i ‘punti di forza e di debolezza’ di ciascun discente per predisporre azioni adeguate di sostegno. DIALANG: test diagnostici computerizzati (14 lingue, compreso l’italiano) (5 moduli: lettura, scrittura, ascolto, strutture grammaticali e lessico) calibrati sui 6 livelli del QCER Test di proficiency: per verificare la competenza di un candidato in una data lingua indipendentemente dal percorso formativo (certificazioni linguistiche) I test di piazzamento servono per piazzare gli studenti nel corso di livello appropriato e devono quindi individuare le competenze di base per poter frequentare quel dato scarso, devono necessariamente basarsi su programmi, e sillabi specifici

33 Costruzione del test Test diretti: richiedono allo studente di fornire una rappresentazione diretta dell’abilità che il test intende verificare-valutare (abilità produttive) Test indiretti: verificano competenze/conoscenze soggiacenti o funzionali alle abilità oggetto di valutazione Test a ‘punti discreti’: verificano singoli ed isolati elementi linguistici (grammatica e lessico) e li verificano uno alla volta Test integrati: verificano abilità integrate (es ascoltare e scrivere, ascoltare e parlare, leggere e scrivere ecc).

34 Test soggettivi Test oggettivi
Espressione dei giudizi attribuzione dei punteggi relativi ad un test 1 Test soggettivi Test oggettivi La differenza è relativa unicamente ai metodi utilizzati per attribuire il punteggio

35 Cosa fa di un test linguistico un “buon” test linguistico (test “esterni”/test di proficency/certificazioni)? deve basarsi su una teoria linguistica (cosa intendiamo per conoscere una lingua) e su un conseguente approccio alla valutazione deve basarsi su una definizione di “cosa” verificare (costrutto: competenza, abilità) Tale definizione e descrizione deve essere accessibile all’utenza: specificazioni deve poter fare riferimento ad un sistema di livelli standard (normativi e condivisi) deve avere un contenuto appropriato (caratteristiche della popolazione di discenti, bisogni, definizione del costrutto, livello) deve motivare deve essere relativo alla ‘vita reale’ deve essere proceduralmente/tecnicamente ben costruito secondo standard indicati da codici etici e professionali (buone pratiche) deve fornire materiali per “allenarsi all’esame”-past papers -eserciziari deve verificare almeno tutte e 4 le abilità di base deve avere un impatto positivo sull’insegnamento e sulla società deve essere riconosciuto e spendibile deve garantire la qualità la qualità deve a sua volta essere certificata (sistemi di qualità-bollini, ecc) Quali sono le proprietà le caratteristiche o le qualità che deve avere un buon test linguistico esternoContent appropriate to test type, syllabus, level etc Underline the fact that the points on the slide can be summed up under the two headings of ‘Fair’ and ‘Useful’. These are one way of establishing that the exam relates to real life and has a positive wash back effect in the classroom. There are other key points that underpin any good exam. Ask participants what these might be – then show next slide. 35

36 Che cosa significano queste parole/concetti che indicano le proprietà o qualità di un test?
Lavorando da soli o a gruppi, scrivete una definizione di: Validità (Validity) Affidabilità (Reliability) Autenticità (Authenticity) Fattibilità (Practicality) Equità (Fairness) Utilità/Spendibilità (Usefulness) Impatto (Impact) Eticità (Ethical test use) Allocate a word to each group and ask them to write a definition. Take feedback, then give official definitions on the next slides. These may need ‘unpacking’ and explaining for the participants, so take time over this. Allow discussion. 36

37 vale a dire…. Tale processo di Validazione riguarda l’intero processo di costruzione di un test: dalla definizione della popolazione, alla definizione dell’oggetto della verifica-costrutto, alla correzione e attribuzione dei punteggi all’impatto del test e riguarda la necessità di fornire evidenze, di dimostrare concretamente la coerenza. conseguenzialità e sistematicità di tutte le fasi in cui si articola il processo

38 Facciamo un esempio…. Per interpretare correttamente dei punteggi in un test di produzione scritta, dovrò definire cosa si intende per capacità di scrittura in un dato contesto e per un dato gruppo di discenti/di candidati e di conseguenza il tipo di compiti (tasks) da includere nel test (relazioni, composizioni brevi, messaggi, lettere, , ecc), i criteri per correggere e dare il punteggio (organizzazione del test, stile, originalità, il raggiungimento dell’obiettivo comu. ecc), le condizioni all’interno delle quali il candidato dovrà eseguire il compito (limiti di tempo, numero di parole, ecc ) e, a livello cognitivo, si dovrà anche cercare di tener conto dell’impegno cognitivo richiesto e di come variabili individuali di tipo psicologico, emozionale possano influenzare la performance The fitness of purpose of an assessment tool or scheme. (www.qca.org.uk/6944.html) Ad esempio un test di lettura per l’ingresso in una facoltà universitaria deve dimostrare che gli studenti sono in grado di far fronte alle esigenze di lettura nello specifico contesto accademico The extent to which an assessment activity actually measures what it sets out to measure. Assessment activities should be planned to establish whether the learning intentions have been achieved and should ensure that as representative a sample of these as possible is covered. In practice this may mean that not all important learning aims can be tested in a formal way: valid evidence relating to some may more easily be found in classwork (e.g. discussion skills) than in a formal test. See also reliability.  (www.ltscotland.org.uk/assess/glossary/index/asp) The extent to which scores on a test enable inferences to be made which are appropriate, meaningful and useful, given the purpose of the test. Different aspects of validity are identified, such as content, criterion, and construct validity; these provide different kinds of evidence for judging the overall validity of a test for a given purpose. (From Multilingual Glossary of Language Testing Terms, prepared by members of ALTE, NB check links some out of date e.g qca is now qcda Validity: is the extent to which test scores can be considered a true reflection of underlying ability. An exam must be valid in terms of what the test seeks to measure the test content whether it is testing knowledge of content or ability to use skills 38

39 Affidabilità (Reliability) o validità dei punteggi (Scoring validity)
La costanza e stabilità dei risultati di un test/prova/esame (o di sue versioni) attraverso somministrazione successive. Concetto tecnico relativo all’assenza di errori di misurazione, sostanzialmente a come è stato applicato il metodo di verifica e alle procedure sia di somministrazione del test sia di correzione ed attribuzione dei punteggi. reliability (of assessment) The extent to which assessment results are an accurate measurement of the candidates' demonstration of the abilities specified by the assessment criteria. (www.qca.org.uk/6944.html) The characteristic of a test or examination that ensures that chance factors affecting the performance of those taking it are reduced as much as possible. Such factors can include differences in the circumstances in which people take the test and inconsistencies among those who mark it. So common 'examination conditions' and steps to make criteria as clear as possible and to compare and, if necessary, modify individual markers' assessments of the performance of those taking the test improve reliability. One way of checking the reliability of a test is to see if the same range of scores is achieved by two different but entirely comparable groups of people. Reliability should not be confused with validity.  (www.ltscotland.org.uk/assess/glossary/index.asp) The consistency or stability of the measures from a test. The more reliable a test is, the less random error it contains.  A test which contains systematic error, e.g. bias against a certain group, may be reliable but not valid. (From Multilingual Glossary of Language Testing Terms, prepared by members of ALTE, Reliability: is the extent to which test results are consistent and accurate, and therefore dependable. It means that results must be accurate and consistent as free as possible from measurement error every time it is taken, even in different versions. Consistency. There must be reliability in both test production (which must be accurate and consistent so that there is confidence that different exam sessions are of the same standard) and in assessment. NB Make sure that participants understand the difference between validity and reliability, and spend time on this if necessary. 39

40 Principali cause di mancanza di affidabilità:
Caratteristiche delle procedure di verifica (non del metodo in quanto tale) Vale a dire aspetti relativi 1. a come un test è stato ‘scritto’ (ad es. istruzioni poco chiare che lo studente può interpretare in modo non corretto; item formulati in modo ambiguo) 2. alle sue condizioni di somministrazione (ad es. dove e quando viene somministrato un test: tipo di aula, tipo di sorveglianza, se il test viene somministrato di mattina o di pomeriggio). Tutti aspetti che possono incidere in modo significativo sulla performance di uno studente

41 Cause di mancanza di affidabilità (continua)
Problemi che possono insorgere nella fase di attribuzione dei punteggi o espressione dei giudizi. Ad esempio, nella verifica della Produzione scritta: performance equivalenti a cui viene attribuito un punteggio diverso. Ciò può dipendere da: criteri di valutazione poco chiari e difficilmente applicabili formazione inadeguata degli esaminatori e/o da errori umani: errori di distrazione/stanchezza degli esaminatori incostanza nell’attribuzione dei punteggi fra esaminatori e da parte dello stesso esaminatore

42 Autenticità (predittività)
L’autenticità di un test linguistico è relativa alla possibilità di dimostrare che la performance di uno studente (nel test e nell’attività o compito che il test fa fare) corrisponde ad una effettiva capacità di uso della lingua in situazioni di vita reale E’ il grado di corrispondenza fra le caratteristiche del compito o dell’attività che il test fa fare e quelle di un corrispondente compito o attività nella vita reale In base a quanto detto prima il concetto di autenticità non è un concetto a parte ma rientra pienamente nel macro concetto di validità e ne rappresenta uno degli aspetti più significativi L’autenticità è una delle proprietà più importanti del testing comunicativo o dell’approccio comunicativo al testing. Di autenticità parlano molto nel senso proposto nella slide Bachma e Palmer. Il problema dell’autenticità si pone in modo molto critico nel caso di test o esami per le lingue generali, mentre è più facilmente applicabile nel caso delle lingue per scopi specifici, per le quali è più facile indicare un range di compiti che poosano rappresentare compiti e situazioni nella vita reale. 42

43 Fattibilità (Practicality)
La misura in cui un test (così come lo abbiamo definito e descritto) è praticabile, fattibile in termini di risorse e condizioni disponibili. Riguarda aspetti pratici, organizzativi ed ‘economici’ Riguarda sia chi produce un test sia chi lo somministra: ad esempio scuole pubbliche o private, hanno ambienti idonei, risorse ad esempio per la prova di ascolto’?esaminatori formati per valutare l’orale? Practicality: is the extent to which a test is practicable in terms of the resources needed. An exam must be practical in terms of the demands it makes on available resources demands it makes on test developer, administrator and test taker time it takes/its cost and its complexity Point out that in fact a fair exam is a useful exam. BUT VRIP may not be equally balanced. E.g. – a young learner’s test may not need to be so reliable, but the experience will clearly have an impact on future learning. Students taking a test for university entrance will need the results to be valid and reliable. 43

44 Equità/Correttezza (Fairness)
Assenza di bias (comportamenti scorretti, discriminatori e di parte) nei confronti della popolazione di riferimento (età, genere, paese di provenienza) La Valutazione, intendendo l’intero processo valutativo, non deve risultare in alcun modo discriminante relativamente ad aspetti socioculturali che possono risultare rilevanti ai fini del risultato. Ci sono analisi statistiche che ci aiutano ad identificare eventuali bias (DIF) Il concetto di bias comprende aspetti non rilevanti rispetto al costrutto oggetto della verifica Assessment should be demonstrably fair to all students and not discriminate on grounds that are irrelevant to the achievement of the outcome. Fairness to students means that they should have equal opportunities to demonstrate their achievement of outcomes. This does not imply that they should all be assessed on the same tasks: indeed, achievement of an outcome might be shown in quite varied ways. Fair assessment often means assessing the one outcome in different ways related to the characteristics and circumstances of the students. These may include their gender, ethnicity, language, race, socioeconomic circumstances or geographic location, and their individual personalities, talents and disabilities. What are familiar or helpful contexts for some students will be unfamiliar or unhelpful to others. Assessment should be sensitive and responsive to such differences among students, so that they are not inadvertently placed in a better or worse position to demonstrate their achievement of an outcome. This does not mean diluting or modifying the outcomes themselves: there is nothing inclusive about apparently succeeding but not learning much. While fair assessment does not demand that all students be assessed on the same tasks, judgements about their learning and achievements should clearly reflect the same outcomes to the same standards. (Taken from The Curriculum Council Test only language ability (i.e. not knowledge of geography, culture etc). There must be a lack of cultural bias and the test should be accessible to all 44

45 Utilità/Spendibilità (Usefulness)
E’ relativa all’utilità (e quindi spendibilità) dei risultati di un test/prova/esame per gli scopi per cui il test è stato costruito (contesto sia sociale che educativo). Dipende dalla correttezza delle inferenze e quindi da un buon equilibrio fra le diverse ‘qualità’ di un test/prova/esame, E’ legata dunque al processo di validazione e alle evidenze che il medesimo è in grado di produrre 45

46 Utilità/Spendibilità: Qualità di un test/prova/esame
Validità: “cosa” (oggetto della verifica - costrutto: abilità o singola competenza) Affidabilità: stabilità/costanza e replicabilità dei risultati (metodo/”come”) Fattibilità: considerazioni di carattere pratico ed ‘economico’ (contesto) Autenticità: rispondenza delle attività proposte dal test ad attività nella vita reale Utilità/Spendibilità: Qualità di un test/prova/esame Impatto: ripercussioni della somministrazione di un test e dei suoi risultati a livello micro e macro Equità: rispetto di diversità socio-culturali Eticità: uso corretto dei test garantito dalla professionalità di chi li produce Tutte queste proprietà rientrano oggi nel processo di validazione di un test 46

47 METODI

48 Test oggettivi: scelta multipla
I test a scelta multipla richiedono di scegliere la risposta fra le tre o quattro proposte La risposta va selezionata non prodotta

49 Vantaggi Scelta Multipla
Correzione automatica, veloce ed economica in caso di grandi numeri di candidati Può essere usato per la verifica di varie abilità e competenze (lettura, ascolto, grammatica. lessico) Non richiede di integrare abilità: lettura con scrittura, o con parlato, ascolto con scrittura o con parlato Risultati affidabili in quanto non coinvolgono giudizi soggettivi (ma….la costruzione della prova è soggetta a margini di errore laddove non pretestata: è un tipo di test che deve essere sperimentato su studenti simili per caratteristiche a quelli a cui sarà destinato in versione finale, in base ai risultati della sperimentazione si deve decidere se inserirlo nella versione originale, modificarlo o addirittura eliminarlo) Nel caso della grammatica o del lessico la scelta multipla non è riferita ad un testo, ma è su frasi. Fra le opzioni di risposta si propongono anche degli errori e questo può avvenire anche a livelli di base. E’ giusto, non è giusto? Possiamo creare confusione negli apprendenti?

50 Svantaggi Scelta Multipla
Estrema difficoltà di costruzione richiede risorse e tempi lunghi (sperimentazione) richiede competenze ed esperienze specifiche (un buon insegnante le ha? E’ necessario che le abbia? Fanno parte di un altro ‘mestiere’?)

51 Costruzione Scelta multipla a tre opzioni: una corretta, una sbagliata, una distraente; a quattro opzioni: una corretta, una sbagliata e due distraenti La risposta corretta deve essere una sola Le opzioni date come distraenti (1 o 2) devono essere sbagliate ma plausibili Le opzioni devono essere omogenee, per costruzione e lunghezza Le opzioni non si devono escludere a vicenda La risposta corretta o le risposte non corrette non devono essere identificabili in base alla sola ‘conoscenza del mondo’ (in particolare nella comprensione della lettura e dell’ascolto)

52 Controllo Ovviamente tutto dipende dalla capacità ed esperienza di chi costruisce l’item oltre che dalla sperimentazione. Prima di ‘licenziare’ una scelta multipla è comunque necessario ricontrollare che: Vi sia la risposta corretta I quesiti siano ben formulati Non vi siano errori di ortografia, grammatica, punteggiatura La lingua usata sia concisa e di difficoltà adeguata al livello dei candidati

53 Perplessità Test che pone comunque una serie di perplessità:
Una risposta non corretta può essere dovuta esclusivamente alla non comprensione della domanda? La risposta corretta può essere data solo in base all’esclusione delle altre opzioni? Quanto ha inciso la fortuna o il caso nell’individuare la risposta corretta?

54 Test oggettivi: Completamento (gap-filling)
Consiste nel completare dei testi di media lunghezza (o delle frasi) da cui sono state tolte delle parole La parola da inserire dovrebbe risultare una sola o quanto meno le possibili opzioni dovrebbero essere limitate (3/4) La risposta può essere prodotta o selezionata da una lista Viene spesso usato per la verifica della grammatica, del lessico (dell’ascolto e anche della lettura) Si basa frequentemente su testi scritti sia autentici sia scritti appositamente La correzione può essere oggettiva una volta che siano state individuate tutte le possibili risposte Richiede pertanto una sperimentazione (anche fra colleghi dello stesso scorso) prima di essere somministrato Una variante può essere quando il testo deve essere completato con delle frasi (che di solito vengono presentate in una lista a parte, in disordine e con dei distraenti)

55 Vantaggi Completamento (gap-filling)
Non essendo la scansione delle parole da eliminare determinata automaticamente (cloze), è possibile scegliere le parole o frasi da eliminare adattando il test al livello di competenza degli studenti Si possono cambiare gli item da completare senza dover cambiare il testo (fattibilità/economicità)

56 Svantaggi Completamento (gap-filling) (relativamente alla verifica della lettura)
Nonostante venga spesso utilizzato per valutare la comprensione della lettura è stato dimostrato che per eseguire un completamento lo studente non si concentra sulla comprensione ma piuttosto sull’abbinamento della parola da inserire con quella/quelle che immediatamente seguono e precedono Di conseguenza non può essere l’unico metodo adottato per verificare la comprensione della lettura E’ un tipo di test molto utilizzato per verificare competenze di tipo grammaticale e/o lessicale

57 Test oggettivi: Cloze Consiste nel completare con le parole mancanti dei testi a buchi. A differenza del completamento la scansione delle parole da eliminare viene determinata automaticamente (da un minimo di 4 ad un massimo di 8)

58 Svantaggie Cloze Non vi è di conseguenza alcuna possibilità di scegliere le parola da eliminare (come nel completamento) decidendo volta per volta la scansione Diventa molto difficile controllare la difficoltà del test In definitiva non è un test esclusivamente linguistico, ma piuttosto è un test utile per verificare le strategie di ricostruzione di testi da parte di parlanti nativi

59 Test oggettivi: Abbinamento (Matching)
Test che richiede di abbinare parole, espressioni, domande e risposte da due liste E’ importante che ciascun item della prima lista si possa abbinare solo con un item della seconda lista Per evitare che l’ultimo abbinamento avvenga per esclusione di solito si inseriscono dei distraenti Può essere utilizzato molto limitatamente per verificare la comprensione di lettura piuttosto per verificare conoscenze linguistiche anche di tipo pragmatico (uso linguistico) sociopragmatico (appropriatezza)

60 Test soggettivi: composizioni, saggi relazioni, lettere, , brevi articoli, riassunti, conversazioni, interviste (produzione ed interazione scritta e orale) Vantaggi: prove dirette (approccio comunicativo-performance) prove ‘facili’ da costruire potenzialmente motivanti (in base anche al tipo di task) culturalmente connotate Svantaggi: possibile non affidabilità dei risultati necessità di predisporre criteri e scale di misurazione per garantire affidabilità ai risultati Necessità di stabilire quali tipi di scale (olistiche/analitiche) e quali criteri Necessità di formare e monitorare gli esaminatori Di prove dirette per verificare l’abilità di scrittura e produzione orale si comincia a sentire alla fine degli anni ‘70 con l’affermazione dell’approccio comunicativo. Il presupposto è che l’abilità di scrittura non sia solo legata ala conoscenza della grammatica ma anche alla capacità di organizzare un testo o nel caso della produzione orale un discorso

61 Problemi legati all’attribuzione dei punteggi: le scale
Scale olistiche sono più facili da usare ma danno meno informazioni Scale analitiche sono più complesse da usare ma danno più informazioni (se i criteri vengono effettivamente usati tutti…) Uno studio condotto da Sakyi (2000) rivela l’utilizzo di scale di tipo olistico comporta il rischio che gli esaminatori si sentano liberi di utilizzare propri sistemi di attribuzione del punteggio ed individua 4 tipi di comportamento: focus sugli errori, focus sul contenuto, focus sulla presentazione delle idee, focus sulla reazione personale al testo Altri studi si sono occupati dei processi mentali a cui gli esaminatori ricorrono per arrivare ad attribuire il punteggio utilizzando scale analitiche e di quali sono i criteri che influenzano maggiormente l’attribuzione del punteggio

62 Problemi legati all’attribuzione dei punteggi
Legati al comportamento degli esaminatori, sia singolarmente sia in rapporto agli altri Legati alla scelta dei criteri e alla loro applicazione (spesso gli esaminatori utilizzano solo alcuni dei criteri proposti) La formazione è assolutamente fondamentale, così come alcuni studi (Weigle 1994) hanno dimostrato che la possibilità di confrontarsi con “modelli” di valutazione può risultare di grande aiuto. Sempre secondo Weigle, esaminatori esperti tendono ad essere meno severi di esaminatori con minore esperienza Lo stesso parrebbe valere nel caso di esaminatori madre lingua rispetto a esaminatori non di madre lingua. Questa ultima differenza tende però a diminuire quando gli esaminatori vengono formati (Brown 1995) Concludendo il fattore più importante, oltre alla formazione, sembra essere l’interazione fra l’esaminatore e i criteri selezionati Gli esaminatori utilizzano i criteri che meglio rispondono al loro modo intendere la conoscenza della lingua e di quella particolare abilità

63 Problemi legati all’attribuzione dei punteggi
Un importante studio di Lumley (2000) arriva alla conculsione che “rating scales represent … a set of negotiated principles which the raters use as a basis for reliable action rather than a valid description of language performance” Gli esaminatori utilizzano i criteri che meglio rispondono al loro modo intendere la conoscenza della lingua e di quella particolare abilità

64 Problemi legati all’attribuzione dei punteggi
I punteggi assegnati ad un test di produzione sia scritta che orale sono il risultato di un processo complesso che necessariamente riguarda: il task, l’interazione fra il task e lo studente (sia linguistica che di conoscenze pregresse), l’esaminatore e le procedure per l’attribuzione del punteggio. Gli esaminatori utilizzano i criteri che meglio rispondono al loro modo intendere la conoscenza della lingua e di quella particolare abilità

65 Relazioni, lettere, email
E’ necessario che le istruzioni/input siano chiari (è da discutere quanto debbano essere dettagliati e lunghi) Deve essere specificato quanto lungo deve essere il testo Deve essere specificato il destinatario (registro) Deve essere specificata la situazione Devono essere specificati i criteri di valutazione (anche per i discenti)

66 Composizioni, brevi saggi
Vantaggi: Facilità nel trovare e formulare argomenti e titoli da sottoporre agli studenti Possibilità di verificare abilità quali quella di sviluppare un argomento in modo logico e coerente Metodo familiare e rassicurante per molti studenti

67 Composizioni, brevi saggi
Svantaggi: Eseguire un compito di produzione scritta dipende anche da competenze diverse dalla abilità oggetto di verifica Più il titolo e l’argomento sono generici maggiore è la possibilità di avere produzioni molto diverse le une dalle altre e questo rende più difficile valutarle in maniera equa e per quanto possibile uniforme I limiti di tempo che necessariamente vanno imposti possono svantaggiare studenti più lenti nello scrivere Indicare il numero minimo e massimo di parole è artificiale ma necessario

68 Test soggettivi: Domande aperte, risposte brevi
Tipo di test generalmente usato per la verifica della Comprensione della Lettura (Ascolto). Si distingue dalla risposte brevi per il numero di parole da utilizzare nella risposta (che quindi devono essere specificate) Test motivante in quanto corrisponde a compiti di vita reale Abilità integrate: Lettura/Ascolto e Scrittura Importante focalizzarli sull’abilità oggetto di verifica

69 Test soggettivi: Interviste orali
E’ preferibile che l’intervista venga strutturata e non sia completamente libera. In tal caso infatti lo studente di cui vogliamo verificare l’abilità di produzione orale potrebbe produrre pochissima lingua per cui le informazioni che riusciremmo ad avere sull’abilità orale sarebbero minime Vanno dunque preparati degli input su cui basare un intervista orale Devono essere specificati sia tempi sia criteri di valutazione

70 DIF (Differential Item Functioning)
Dictionary of Language Testing (SILT 7) DIF is when an item functions differently (is easier or more difficult) for one group of candidates of the same ability than another group of the same ability (groups defined by things like gender, age and country of origin) For DIF detection, you need item response data and data on candidate’s background characteristics (in order to group them by gender, etc) and it needs to be linked (we know which candidate’s responses belong to which data on background characteristics) There are various statistical methods to detect DIF (see the special number of LAQ 4/2 2007http://www.tandfonline.com/toc/hlaq20/4/2) including using Rasch analysis which is what we do Two things about DIF i) how strong it is, ii) the probablity it is due to chance (low - item 13) It must be interpreted qualitatively Cosa va a investigare la DIF? Un diverso funzionamento degli item relativamente a gruppi distinti di candidati. In genere più i valori/numeri sono bassi maggiore è il problema.

71 Andiamo a vedere un grafico che rappresenta la DIF
Andiamo a vedere un grafico che rappresenta la DIF. L’esame a cui fa riferimento il grafico è il CELI 3 un esame di certificazione dell’italiano generale per adulti scolarizzati a livello B2 del QCER. Nel dettaglio ci occuperemo di un test all’interno della componente di comprensione della lettura a livello B2 una specie di matching, vale a dire bisogna abbinare delle affermazioni ad un testo. Ci sono tre linee diverse, una verde che rappresenta la baseline la nostra linea di riferimento, cioè la difficoltà per tutti i candidati, la rosa rappresenta la difficoltà per gli uomini e la blu per le donne. Quando queste tre linee si discostano c’è un problema e più si discostano, maggiore è il problema. La maggiore facilità o la maggiore difficoltà sono date dalle risposte. l'item con la più alta difficulty in termini di Rasch analysis è quello a cui i candidati hanno dato meno risposte corrette. In termini di Classical Analysis questo item è quello che ha la facility più bassa. Quindi l’indice di difficoltà in termini di Rasch analisi è dato dal numero delle risposte non corrette, in termini di ststistica classica si parla invece di indice di facilità, è l’item a cui è stato dato il più alto numero di risposte non corrette è quello che ha l’indice di facilità più basso. Esempio dal report del CELI 3 di Novembre 2012 (allegato 20 al validity argument che ti ho mandato): l'item 56 è il più difficile (difficulty , vedi in cima a pag.5) ed è quello con la facility più bassa (0.30, vedi a pag. 12). Ovvero solo il 30% dei candidati ha risposto in modo corretto.

72 Togliamo adesso la linea di riferimento o baseline è vediamo che il il problema per gli item 13 e 14 è ancora più evidente. Allora andiamo alla tavola numerica.

73 Andiamo a ricercare nella penultima colonna a destra il numero degli item e guardiamo solo i valori evidenziati in due colonne, quella relativa al contrasto vale a dire ad un diverso funzionamento degli item fra uomini e donne e vediamo che i numeri/valori sono bassi e sono fuori range (valori normali di DIF vanno da a 0.49, meno di 0.5) vado poi a guardare la colonna della probabilità, che mi dice se il diverso funzionamento dell’item è dovuto o meno al caso, più il valore è basso, maggiore è la probabilità che ci sia un malfunzionamento dell’item

74

75 Test oggettivi: Scelta multipla binaria, Vero/falso Si/No
I test di vero/falso richiedono semplicemente di scegliere fra sì/no o fra vero/falso. La risposta va selezionata e non prodotta

76 Vantaggi: Vero/falso Si/No
relativa facilità di costruzione metodo altamente oggettivo e quindi affidabile Può essere usato per la verifica di varie abilità e competenze (lettura, ascolto, grammatica. lessico)

77 Svantaggi: Vero/falso Si/No
50% di probabilità che lo studente risponda tirando ad indovinare (a meno che non si penalizzi) Per trovare un correttivo si è provato a chiedere di dare spiegazione della risposta, compito non facile che coinvolge la scrittura e difficile da valutare ( problemi di affidabilità)

78 Test Oggettivi: Correzioni di errori (Editing)
E ‘un test che consente di verificare conoscenze di tipo grammaticale e lessicale Consiste nell’individuare errori sia in un testo scritto (segnalandoli semplicemente o correggendoli anche) sia in una scelta multipla Gli errori possono essere anche errori di ortografia, simulando gli errori che si fanno spesso scrivendo in fretta o perché distratti

79 Test oggettivi: Trasferimento di informazioni (Information Transfer)
Test usato generalmente per la verifica della Lettura e dell’Ascolto Richiede di trasferire informazioni (numeri, date, brevi frasi da un testo (letto o ascoltato) in una tabella, formulario, diagramma, ecc

80 Vantaggi Test adatto per verificare la comprensione di una sequenza narrativa o descrittiva, di una classificazione, di un processo costituito da una serie di fasi Il compito che lo studente è chiamato a compiere è simile (anche per come si presenta) ad attività proprie di situazioni di vita reale. In particolare in contesti di studio e lavoro Il compito appare dunque come autentico e, in quanto tale, può essere recepito come motivante.

81 Svantaggi Può essere, d’altra parte, un tipo di compito molto complicato Capire cosa deve fare può richiedere allo studente molto tempo, per contro le informazioni ‘linguistiche’ che si possono ottenere possono a loro volta essere minime In aggiunta, può essere un compito ‘facilitante’ per una certa tipologia di studenti e creare notevoli difficoltà di tipo culturale e cognitivo per altri

82 Costruzione del test: test diretti 2
I test diretti sono relativamente facili da costruire se si parte dalla definizione dell’utenza e dei relativi bisogni linguistici in situazioni di vita ‘reale’ è di conseguenza relativamente facile definire il costrutto oggetto di indagine e cercare di elicitare una performance rappresentativa l’impatto educativo può essere positivo (favorisce lo sviluppo di abilità produttive, soprattutto il parlato, spesso trascurato in contesti di insegnamento di una lingua straniera) possono insorgere problemi di affidabilità e di limitatezza del campione elicitato

83 Costruzione del test: test indiretti 3
I test indiretti, per contro, elicitano conoscenze e competenze specifiche piuttosto che abilità o saper fare, ma come tali, più generalizzabili vale a dire: conoscenze grammaticali e lessicali così come conoscenze di fonetica e fonologia (nel caso del parlato) sono comunque sempre necessarie per parlare e scrivere in qualsiasi situazione comunicativa Il problema è il rapporto fra le competenze elicitate e l’abiltà oggetto di indagine vale a dire: non abbiamo sufficiente evidenza che il fatto di aver ottenuto buoni risultati ad esempio in test di grammatica possa predire un equivalente buon risultato nello scrivere una cronaca, un racconto o una lettera

84 «Validation is an on-going process» (Bachman & Palmer 1996)
Validity - Validation Validity: «Appropriateness, meaningfulness and usefulness of the specific inferences made from test scores» Standards for educational and psychological testing (APA 1985) (Purpura 2011) Validation: «the process of accumulating evidence to support such inferences» Standards for educational and psychological testing (APA 1985) (Purpura 2011) «Validation is an on-going process» (Bachman & Palmer 1996) Abbiamo iniziato a parlare delle proprietà di untest, vale a dire gi aspetti da tenere presente in fase di costruzione di un test soprattutto in contesto di valutazione sommativa. Abbiamo visto come la validità sia la proprietà che funge da ombrello a tutto le altre e le comprende tutte tanto che oggi si tende più a parlare di validazione o di processo di validazione di un test che di validità di un test, proprio perché la validità è relativa all’interpretazione o inferenze dei risultati che rappresenta il momento finale e conclusivo dell’iter di un test, per cui necessariamente il processo di validazione riguarda tutto ciò che precede questo momento: inidividuazione della popolazione e dei bisogni linguistici, definizione degli obiettivi e del contenuto del test, metodi di verifica, criteri per attribuire i punteggi

85 Obiettivi e Contenuti Esaminare/discutere i principi teorici che stanno dietro la costruzione di test linguistici e ne garantiscono la rispondenza allo scopo e la qualità (responsabilità) Diventare consapevoli/più consapevoli dei molti aspetti da tenere presente quando si parla di valutazione linguistica e quando si lavora in questo ambito Lavorare su esempi di test/prove linguistiche Mi soffermerò molto e a più riprese sul concetto di qualità e sulla responsabilità che come produttori di test linguistici siamo tenuti a garantire.

86 Valutazione positiva/negativa
Pensate a casi in cui siete stati valutati. Siete stati valutati in senso positivo o negativo: per quello che sapevate/sapevate fare? per quello che non sapevate/sapevate fare? Si può parlare di valutazione in vario modo. In italia c’è un poò una viisione puntiva della valutazione per cui si è valutati più per quello che non si sa che per quello che si sa, forse oggi meno in contesto scolastico, ma sicuramente ancora in contesto accademico. Dovremmo soprattutto in valutazione linguistica abituarci a valutare in positivo piuttosto che in negativo. This is to get participants thinking about different ways of looking at assessment, and will be picked up in the skills modules later. Give brief example of UMS writing exams where scripts are marked positively 86

87 Valutazione sommativa Valutazione formativa
Valutazione sommativa: valutazione dell’apprendimento Valutazione formativa: valutazione per l’apprendimento

88 Valutazione criteriale (Criterion-referenced) o Valutazione normativa (Norm-referenced)
Valutazione e interpretazione dei risultati sulla base di un criterio esterno (programmi ministeriali o QCER) Valutazione e interpretezione dei risultati sulla base della performance del gruppo This is to get participants thinking about different ways of looking at assessment, and will be picked up in the skills modules later. Give brief example of UMS writing exams where scripts are marked positively 88

89 Norma e Criterio “Norma”: riferimento interno
Il richiamo alla “norma” è un raffronto con la performance di un gruppo/ classe (è un raffronto possibile, in qualche misura, per lo studente) “Criterio”: riferimento esterno Il richiamo al “criterio” è un raffronto con parametri esterni — ad esempio, quelli offerti dai livelli del Quadro Comune Europeo di Riferimento (è un raffronto difficile per lo studente)

90 Item Ogni singola parte di un test/prova a cui venga assegnato un punteggio 90

91 Competenze che un insegnante dovrebbe avere per essere “preparato” in valutazione
Secondo i Seven Standards for Teacher Development in Assessment prodotti dall’American Federation of Teachers, dal National Council on Measurement in Education e dalla National Education Association (1990), le competenze sono: selezionare metodi di verifica appropriati per prendere decisioni in nel settore dell’istruzione Sviluppare prove relative a tali metodi Somministrare, valutare ed interpretare i risultati di prove sia esterne sia interne Sviluppare valide procedure per definire punteggi, giudizi, gradi, voti Comunicare i risultati a studenti, parenti, altri atakeholders Riconoscere quando l’uso dei risultati possa essere inappropriato o non etico o illegale Usare i risultati per prendere decisioni relative a singoli studenti, pianificazione di corsi, sviluppo di curricoli Si può è essere o meno d’accordo sul fatto che un modo per rilanciare l’apprendimento sia quello di migliorare le procedure valutative, comunque la valutazione è parte integrante del lavoro di un insegnante.

92 Il modello interpretativo di Toulmin
Datum: performance dello studente Claim : l’interpretazione (punteggio, giudizio) Warrant: giustificazioni al passaggio dal datum al claim Backing: evidenze a supporto delle giustificazioni Exception : possibili obiezioni al claim

93 Gli usi dell’argomentazione
Il modello interpreativo di Tulmin può essere applicato a qualsiasi settore e a qualsiasi situazione , in quanto basato su un ragionamento logico L’argomentazione nasce per giustificare un’asserzione che può essere come qualsiasi asserzione messa in dubbio Si può è essere o meno d’accordo sul fatto che un modo per rilanciare l’apprendimento sia quello di migliorare le procedure valutative, comunque la valutazione è parte integrante del lavoro di un insegnante.

94 Caratteristiche di una valutazione linguistica consapevole fondata su basi teoriche:
Deriva da e risponde a scopi ben chiari (generici o per scopi specifici nel caso dell’apprendimento linguistico) (il cosa) Deriva da e riflette chiari ed appropriati obiettivi d’insegnamento/apprendimento (il perché) Si basa su metodi di verifica appropriati (il come) Fornisce un campione appropriato dell’apprendimento degli studenti (il come generare/elicitare tale campione) Tiene sotto controllo possibili fonti di bias (comportamenti scorretti) (per prevenirli) Fornisce risultati attendibili Ci aiuta quindi a chiarirci meglio da cosa partiamo e dove vogliamo arrivare

95 La valutazione anche linguistica da diverse prospettive: studenti, insegnanti
Molti studenti non percepiscono la valutazione come un’esperienza educativa, ma piuttosto come qualcosa da superare che crea spesso ansia Molti inseganti hanno una percezione simile. Soprattutto quando la valutazione è “esterna” vale a dire non sono gli stessi insegnanti a preparare e valutare le prove, molti insegnanti avvertono un gap fra insegnamento e valutazione Ci sono molti pregiudizi sulla valutazione che è spesso vista come una sorta di arcano o di torre d’avorio, qualcosa di tecnico e/o complesso che forse è meglio demandare da altri… Nei confronti della valutazione si ha spesso una sorta di paura…

96 Test oggettivi: definizione ed esempi
Si definiscono oggettivi i test in cui non si richiede di esprimere un giudizio in quanto la risposta corretta ai singoli item è predeterminata (chiavi) ed ha un predeterminato punteggio (scansione ottica -correzione automatica) (affidabilità..se…) Scelta binaria: vero o falso (scelta multipla a due opzioni) Scelta multipla (tre/ quattro opzioni) (su testi, su frasi) Completamento: inserimento della parola, della frase/espressione mancante, completamento della frase priva della parte finale. Spesso si completa scegliendo da una lista di possibili opzioni Abbinamento (parole o frasi da abbinare da due liste Riordino: di elementi (lettere parole frasi) in sequenza casuale Trasformazione: con le tecniche proprie degli esercizi strutturali Editing: correzioni di errori, eliminazione di vocaboli intrusi

97 Test soggettivi: definizione ed esempi
Si definiscono soggettivi i test in cui si richiede di esprimere un giudizio in quanto la risposta non è predeterminata è necessario predisporre criteri di valutazione è necessario disporre di personale competente e preparato Produzioni scritte libere o guidate Produzione orali libere o guidate Domande aperte


Scaricare ppt "La valutazione delle competenze linguistiche: concetti modelli metodi"

Presentazioni simili


Annunci Google