Indicatori di valutazione della qualità della ricerca negli atenei: sostituibilità, sensibilità e capacità discriminatoria Perugia, 14 marzo 2008 Michela Gnaldi Dipartimento di Economica, Finanza e Statistica Università di Perugia
La prima attività di ricerca Sperimentazione di nuove strategie didattiche per l’Insegnamento della Statistica, attuato dal CIRDIS e cofinanziato dal M.U.R.S.T. e dalle Università di Padova, Palermo, Perugia e Roma "La Sapienza" Obiettivo della ricerca: valutazione dell’efficacia di tre metodologie didattiche con lo scopo di individuare strategie valide in grado di facilitare i processi di insegnamento e di apprendimento della statistica Per valutare l’efficacia di queste strategie didattiche sono stati predisposti diversi strumenti tra cui i tre test di profitto (somministrati all’inizio, nel corso e alla fine della sperimentazione) L’analisi dei tre test è stata condotta secondo le procedure tipiche dell’Item Analysis. Le analisi hanno consentito di: 1. verificare e confrontare il livello di facilità e di selettività dei quesiti dei tre test nel loro complesso 2. verificare e confrontare il livello di facilità e di selettività dei quesiti dei tre test in base al grado scolastico (2°, 3° o 4° classe) 3. verificare e confrontare il livello di facilità e di selettività dei quesiti dei tre test in base alla strategia didattica impiegata
Master di Ricerca (MSc) in Statistica (Università di Glasgow) Students numeracy and their achievement of Learning Outcomes in a Statistics Course for Psycologist Predisposizione di due test di profitto, uno sulla numeracy (il Baseline Test) e l’altro di contenuto statistico (il Follow-up test), somministrati all’inizio e alla fine di un corso annuale di statistica introduttiva per studenti della facoltà di Psicologia. Circa 200 studenti hanno preso parte all’indagine L’obiettivo principale del progetto di ricerca è stato quello di verificare il livello di numeracy e delle conoscenze statistiche degli studenti, con particolare riguardo alle conseguenze che uno scarso livello di numeracy iniziale può produrre in termini di successive difficoltà nell’apprendimento della statistica L’analisi dei due test è stata condotta secondo le procedure dell’Item Analysis – per verificare il livello di difficoltà e selettività delle domande dei test - e della regressione multipla – per verificare la relazione esistente tra competenze numeriche all’inizio del corso e capacità di ragionamento statistico alla fine del corso
Master di Ricerca (segue) Le analisi hanno consentito di osservare come: Benché la maggior parte degli studenti padroneggi le abilità implicate nei compiti aritmetici e grafici di base (numeracy), al crescere del livello di complessità di tali compiti la percentuale di studenti in grado di risolvere compiti numerici meno immediati ed elementari si riduce progressivamente. La numeracy è una capacità di base, ma non deve essere né data per scontata a livello universitario, né essere considerata obiettivo specifico o prioritario solo nei primi anni scolastici In media, la competenza statistica (misurata dai risultati conseguiti dagli studenti nei due Follow- up test) è significativamente collegata al livello pregresso di numeracy degli stessi studenti. Non si può affermare che esista una relazione di causa-effetto tra innumeracy e successiva difficoltà nell’acquisire una conoscenza critica della statistica. Tuttavia, esiste un legame tra le due variabili, che sembra giustificare la preoccupazione di coloro che individuano nelle scarse capacità numeriche un ostacolo all’apprendimento successivo
L’esperienza alla National Foundation for Educational Research (NFER) L’NFER è la più grande istituzione indipendente in Europa nel campo della ricerca educativa Intraprende circa 200 progetti di ricerca ogni anno che spaziano dai primi anni scolastici fino al lifelong learning Fornisce supporto e consulenza a manager e policy makers del servizio pubblico conducendo progetti di ricerca a livello nazionale e internazionale L’NFER ha due principali aree di competenza: Predisposizione e validazione delle prove oggettive di profitto per il National Curriculum (Test development) Valutazione di efficacia di programmi/progetti/interventi educativi. Classical Item analysis, Differential Item Functioning, Distractor analysis, Age standardisation, Reliability Analysis, Item Banking (IRT), Bookmark (test score, item ordering, cut score estimation), Equating Multilevel Modelling
Evaluation of the A PAUSE SRE Programme Nel 1999 è stata implementata in UK la Government’s ten-year teenage Pregnancy Strategy a seguito di una preoccupazione crescente determinata dagli alti tassi di concepimento riscontrati in Inghilterra tra le giovani donne in età adolescenziale Il Ministero della Salute inglese (Department of Child Health) ha sviluppato un programma – il “Sex and Relationship Education” che, nell’ambito di tale strategia, aveva l’obiettivo di ridurre i tassi di concepimento precoce attraverso un programma di educazione sessuale diretto a favorire la conoscenza sessuale, l’uso efficace dei contraccettivi, il rispetto reciproco tra giovani partner La NFER è stata incaricata di investigare l’efficacia del programma in termini di impatto sulle conoscenze sessuali dei giovani, di atteggiamenti nei confronti dei rapporti sessuali e di comportamento sessuale Il progetto ha comportato: l’analisi longitudinale dei dati (dal 2000 al 2003) riguardanti 12 mila studenti un’analisi multilivello allo scopo di investigare l’impatto dl programma al netto di variabili di background legate allo studente e al contesto scolastico
Where England Stands in the Trends in International Mathematics and Science Study (TIMSS) 2003 TIMSS è una ricerca comparativa internazionale che misura le tendenze delle conoscenze e delle abilità degli studenti in matematica e in scienze e studia i contesti culturali, i curricola, le pratiche didattiche associate con rendimenti scolastici Condotto per la prima volta nel 1994-95, TIMSS interessa i livelli corrispondenti ai nostri III e IV elementare, II e III media e all’ultimo anno di scuola secondaria superiore. L’Inghilterra ha partecipato a tutti gli studi TIMSS con la guida dell’NFER. Io ho preso parte al gruppo di ricerca del 2003 Per misurare l’apprendimento degli studenti TIMSS 2003 si avvale di pacchetti di prove di profitto di matematica e di scienze. A questo si aggiungono tre diversi tipi di questionari di contesto rivolti a studenti, insegnanti, dirigenti scolastici. Lo studio ha consentito di: Derivare variabili composite a livello di studente, classe e scuola dai tre questionari seguendo le procedure della Factor Analysis Individuare la posizione relativa di ogni Paese nella graduatoria di performance internazionale attraverso l’impiego di modelli multilivello
L’interesse per la ricerca e le metodologie per valutare la ricerca scientifica Settimana di studio su Measuring Science: Assessment of Research Performance and Discovery of Patterns of Scientific and Technological Development - Center for Science and Technology Studies (CWTS), Leiden. • Metodi di misurazione della performance scientifica • Indicatori assoluti e normalizzati di misurazione dell'impatto della ricerca (Citation indeces) • ISI Impact factors • Metodi di misurazione del contributo della ricerca al progresso scientifico • Misure bibliometriche di valutazione dell'impatto della ricerca e Peer assessment system • Indicatori bibliometrici nelle scienze sociali e umanistiche e inaccuratezze nella Citation Analysis • Concetti di base sull’impatto economico della ricerca scientifica
L’interesse per la ricerca e le metodologie per valutare la ricerca scientifica (segue) Collaborazione con prof. Fabbris Studio sugli Indicatori di valutazione della qualità della ricerca negli atenei italiani: sostituibilità, sensibilità e capacità discriminatoria
Le nuove norme sulla programmazione e la valutazione del sistema universitario Legge n. 43/2005 dispone che: a decorrere dall’anno 2006 le università, anche al fine di perseguire obiettivi di efficacia e qualità dei servizi offerti, entro il 30 giugno di ogni anno, adottino programmi triennali coerenti con le linee generali di indirizzo definite con decreto del Ministro dell’università e della ricerca (MUR); i programmi siano valutati dal MUR e periodicamente monitorati sulla base di parametri e criteri individuati dal Ministro, avvalendosi del Comitato nazionale per la valutazione del sistema universitario (CNVSU); si tenga conto dei programmi delle università nella ripartizione del Fondo di Finanziamento Ordinario delle università
Le nuove norme sulla programmazione e la valutazione del sistema universitario (segue) Il sistema di programmazione triennale delle attività e dello sviluppo delle università e dell’intero sistema universitario prevede: 1. predisposizione delle linee generali di indirizzo (Ministro); 2. predisposizione dei programmi triennali (Università); 3. valutazione e il monitoraggio periodico di tali programmi (MUR e CNVSU); 4. predisposizione di una relazione triennale sui risultati della valutazione dei programmi; 5. definizione delle modalità con le quali tener conto dei programmi delle università nella ripartizione del fondo di finanziamento ordinario delle università.
Gli obiettivi della valutazione del Sistema Universitario Assicurare una funzione di garanzia nei riguardi degli utenti (studenti, famiglie e imprese), della allocazione dei fondi e della società nel suo complesso; Sostenere, anche in termini scientifici, i processi decisionali (razionalizzare le scelte, gli interventi, i programmi ecc.); Verificare la possibilità e la effettiva realizzazione degli obiettivi programmati (in termini di quantità, costi, efficienza, efficacia, qualità); Verificare l’impatto dei programmi e degli interventi attuati.
I presupposti per la valutazione e il monitoraggio del sistema universitario Un sistema informativo affidabile e aggiornato (Banca dati Offerta Formativa, Anagrafe Studenti, Rilevazione dei Nuclei di Valutazione etc.) Un sistema sintetico di indicatori (il cd. cruscotto strategico) di bisogno informativo suddivisi secondo le diverse aree di intervento (ad esempio Offerta Formativa, Dottorati di Ricerca, Ricerca Scientifica etc.)
Obiettivi di questo studio Analizzare il quadro informativo esistente nell’area della Ricerca Scientifica nei 77 Atenei italiani Fonti di dati Valutazione CIVR - primo esercizio nazionale di Valutazione Triennale della Ricerca (VTR 2001- 2003) Archivio MIUR-CINECA Progetto di Portale CNVSU Analisi del sistema di ranking delle università Analisi delle caratteristiche metriche degli indicatori proposti Analisi dei metodi di standardizzazione impiegati Analisi di sensibilità degli indicatori Derivare dalla base informativa esistente un numero limitato di indicatori sintetici capaci di riassumere le caratteristiche della ricerca scientifica Analisi fattoriale per produrre indicatori di sintesi della produzione scientifica italiana
Valutazione CIVR - primo esercizio nazionale di Valutazione Triennale della Ricerca (VTR 2001-2003) Altri esempi a livello internazionale di ranking delle università US News Ranking German CHE University Ranking Jiao Tong University di Shanghai Times Higher Education Supplement: il punteggio di una università viene determinato 1. peer review che consiste nel giudizio dato da ricercatori su università che considerano migliori nel territorio e nel campo scientifico in cui si sentono qualificati 2. impatto della ricerca in termini di citazioni 3. percentuale di studenti internazionali e personale docente internazionale
Il primo esercizio nazionale di Valutazione Triennale della Ricerca (VTR 2001-2003) Obiettivo Valutazione della performance scientifica di 77 Università (statali e legalmente riconosciute), 12 Enti pubblici di ricerca e 13 Istituzioni private di ricerca Oggetto della valutazione Prodotti della ricerca - libri e loro capitoli, inclusi atti di congressi; articoli su riviste; brevetti depositati; progetti, composizioni, disegni e design; performance, mostre ed esposizioni; manufatti e opere d'arte Chi ha effettuato la valutazione? Panel di Area. Ogni prodotto è stato valutato da almeno due esperti, in termini di qualità, rilevanza, originalità/innovazione e internazionalizzazione e/o potenziale competitivo internazionale Il giudizio degli esperti o rating Il rating di ciascun prodotto è stato unico, con attribuzione di un livello di merito: eccellente, buono, accettabile, limitato
Variabili e indicatori CIVR a livello di area scientifico disciplinare
Variabili e indicatori CIVR a livello di Struttura
La preparazione del DB 1. I dati di area sono stati riportati al livello di ateneo, calcolando la media aritmetica dei valori di area, ponderata col numero medio di ricercatori ETP nel triennio considerato ovvero: Dove: Ihj è l’indicatore elementare associato all’area j (j=1, …, A) dell’Ateneo h (h=1, …, 77) whj è il peso dell’area j nell’ateneo h, dato dal numero di ricercatori dello stesso ateneo suddivisi per area scientifico-disciplinare
La preparazione del DB (segue) 2. Gli indicatori espressi in valori assoluti si sono normalizzati Dove: Ij è il generico indice inerente all’unità d’analisi j, wj è il peso in unità di ricercatori equivalenti dell’unità sul totale nazionale (Σj wj =1)
Indicatori inclusi nelle analisi - Scoring dei prodotti - Prin finanziati (fonte CINECA) - Percentuale di prodotti valutati eccellenti - Percentuale di prodotti valutati almeno buoni - Percentuale di prodotti valutati accettabili - Percentuale di prodotti con impact factor - Brevetti attivi all’estero - Scoring dei brevetti Spin-off attivate - Partnership attivate - Indice di valorizzazione economica della ricerca - Propensione al ringiovanimento dei ricercatori - Capacità dei ricercatori di finanziare le ricerche Propensione dei ricercatori alla internazionalizzazione
Motivi esclusione di alcuni indicatori PRIN PRESENTATI L’entità (percentuale) dei PRIN finanziati, e non di quelli presentati è legata alle variabili di risultato, quindi il secondo indicatore, che rimane un indice di attivismo per il reperimento di risorse per la ricerca, è trascurabile per ogni analisi inerente ai prodotti della stessa GRADO DI PROPRIETA’ DEI PRODOTTI Il complemento all’unità di questo indicatore CIVR esprime l’apertura verso l’esterno ed è calcolata come proporzione di ricercatori appartenenti ad atenei diversi da quello di riferimento che operano assieme. L’indicatore assume i valori più elevati negli atenei che hanno presentato al CIVR un maggior numero di prodotti scientifici di area medica, che tipicamente hanno un numero di autori elevato e più frequentemente sono allargati ad ampi gruppi di ricerca. Quindi, più che l’apertura verso l’esterno, la propensione all’apertura denota, nel confronto tra atenei, una forte produzione di area medica. L’indicatore può assumere significati distorti, rispetto a quello per il quale è stato originariamente proposto
Analisi fattoriale Fattore 1: VALORIZZAZIONE APPLICATIVA DELLA RICERCA - indicatore composito di produzione di valore sociale ed economico tramite la ricerca Fattore 2: indicatore composito di QUALITA’ DELLA RICERCA
Considerazioni in itinere I valori degli indicatori CIVR risentono dei criteri di calcolo, in particolare della dimensione degli atenei, e in tal modo possono falsare sia eventuali rating e addirittura il ranking degli atenei Si propone di dimensionare in senso quantitativo la ricerca, standardizzando gli indicatori con il numero di ricercatori coinvolti nella ricerca 2. Analisi fattoriale degli indicatori Permette di individuare alcune dimensioni della valutazione della ricerca: una che dipende quasi linearmente dalla Valorizzazione applicativa della ricerca; una qualitativa che dipende dal punteggio dei prodotti di ricerca cioè dalla valutazione della qualità dei prodotti CIVR
Benchmarking di strutture sanitarie e valutazione di efficacia Attraverso l’impiego esclusivo di indicatori compositi? Gli indicatori non colgono la dinamica temporale insita nel concetto stesso di efficacia Efficacia: capacità di produrre gli effetti desiderati Effetto di una politica: il cambiamento nella variabile risultato attribuibile in senso causale al trattamento Gli indicatori non bastano!
Basato su modelli Value Added Benchmarking delle scuole (UK) Basato su modelli Value Added Due fasi nello sviluppo di modelli di value added per il benchmarkinbg delle scuole: MEDIAN METHOD (1992-2003): i punteggi di value added erano basati solo sulle performance scolastiche precedenti (prior attainment) CONTEXTUAL VALUE ADDED (2004): i punteggi di value added sono basati sulle performance scolastiche precedenti e su variabili di contesto a livello di studente impiegando modelli multilivello.
MEDIAN METHOD (1992-2003) MEDIAN LINE: il punteggio mediano al KS2 degli studenti che al KS1 hanno ottenuto un certo punteggio medio VALUE ADDED della scuola (valore aggiunto) la media di tutte le differenze tra il punteggio reale al KS2 e il punteggio atteso al KS2 Punteggio atteso al KS2 per uno studente “tipo” al KS1 Ciò che deve essere attribuito alla scuola in quanto non è spiegato dal prior attainment
CONTEXTUAL VALUE ADDED Variabili di contesto (a livello di studente): genere, FSM, Appartenenza Etnica, SEN, EFL, CAP (etc.) Il punteggio di value added della scuola: differenza tra valore atteso e valore osservato, così come misurato dal residuo di secondo livello [misura le variazioni tra le performance della scuola e quelle media o attesa a livello nazionale] Se si considera il modello più semplice, modello nullo (o a sola intercetta o a componenti di varianza) differenza tra l’intercetta della scuola j- esima e valore medio: la caratteristica non osservata a livello di scuola j-esima
Matching statistico come alternativa alla regressione linerare per ridurre le differenze di partenza nella valutazione di efficacia Quando si applica? Si ha accesso ai dati sulla variabile risultato nel solo periodo post intervento e a informazioni pre-intervento sia sulle unità dei trattati che dei non trattati (ma non sulla variabile risultato) I limiti di una regressione lineare: stima corretta dell’effetto della politica se e solo se sul processo di selezione influiscono solo le variabili esplicative inserite nel modello (selection on observables). Se questo assunto è valido, condizionando sulle caratteristiche osservabili pre-intervento si eliminerebbe tutta la distorsione da selezione (conditional independence assumption) La relazione tra variabili esplicative e risposta non è generalmente nota e spesso non è lineare.
Matching statistico (segue) L’idea del matching statistico: si confronta il valore della var risultato di ogni unità trattata con il corrispondente valore di una o più unità non trattate che siano il più possibile simili. Dopo l’abbinamento, essendo l’unità trattata e quella non-trattata molto simili con riferimento alle variabili osservabili, ogni differenza nella variabile risposta non può che essere attribuita al trattamento Come si procede? 1. si determina (con modello di tipo logit) per ciascuna unità il propensity score - probabilità condizionata che una unità venga assegnata al trattamento date le sue caratteristiche osservabili prima del trattamento (ignorando quindi il fatto che sia realmente trattata o meno) 2. si effettua l’abbinamento
Matching statistico: Abbinamento e stima effetti Nearest neighbor matching: Si abbina a ciascuna unità trattata una unità non trattata che ha il propensity score più vicino numericamente Effetto stimato con “Nearest neighbor” media delle differenze tra coppie di unità abbinate Radius matching: Ad ogni unità trattata si abbinano quelle unità di controllo il cui propensity score ha una distanza minore o uguale ad un certo raggio (0,01 oppure 0,05). media delle differenze tra trattati e media dei non-trattati Effetto stimato con “Radius” Stratification matching: si suddivide il campo di variazione del propensity score in strati differenza tra medie della variabile risultato tra trattati e non-trattati (effetto condizionato al particolare strato K-esimo) media di queste differenze nei vari strati, ponderato col numero di unità trattate presenti Effetto stimato con “Stratification”
Regression Discontinuity Design Esperimento naturale: l’esposizione ad una politica pubblica è determinata da un meccanismo esogeno che gli individui coinvolti non controllano completamente; e.g. uso di graduatorie per determinare chi può e chi non può accedere ad un servizio Tutti coloro che entrano in graduatoria vogliono accedere al servizio, ma non tutti riescono ad accedervi: ogni soggetto che fa richiesta riceve un punteggio e viene ammesso solo se supera una certa soglia Il processo di autoselezione non porta direttamente all’esposizione alla politica, ma solo alla partecipazione alla gara. Non è né il caso né la decisione dei singoli a determinare l’esposizione alla politica, ma una regola esterna, il punteggio Attorno alla soglia di ammissione si crea una discontinuità, una frattura netta nell’esposizione alla politica, tra chi è escluso e chi è ammesso Attorno alla soglia, i due gruppi sono molto simili tra loro in termini di punteggio (le differenze sono minime, quindi praticamente casuali) ma molto diversi in termini di trattamento. Nelle immediate vicinanze della soglia si determina una situazione che è molto simile a quella della randomizzazione
Regression Discontinuity Design (segue) Per avere una stima dell’effetto di una politica è necessario considerare un valore di sintesi della variabile risposta (per esempio la media) per un numero sufficiente di unità (escluse e incluse) vicine alla soglia Ma qual’è il numero sufficiente e quanto vicino alla soglia è davvero vicino? Quanto più larga è la banda delle osservazioni attorno al punto di discontinuità tanto più le differenze di punteggio torneranno ad inquinare il confronto quanto più stretta è la banda, tanto più piccolo il campione e quindi l’errore standard
Metodi non-parametrici e parametrici per la stima dell’effetto di una politica Il metodo del confronto intorno al punto di discontinuità consiste nel selezionare un numero arbitrario di primi inclusi e di ultimi esclusi, calcola la differenza nei valori medi dei due gruppi e considera quest’ultima come misura dell’effetto della politica Regression Discontinuity Design è un’alternativa a questo metodo non-parametrico; utilizza tutte le osservazioni disponibili (eliminando in questo modo l’arbitrarietà della scelta della banda) e elimina con metodo statistico l’influenza delle differenze di punteggio Ciò richiede di modellare esplicitamente la relazione tra variabile risposta, criterio esterno di selezione (punteggio) e trattamento (esclusione/inclusione)
Regression Discontinuity Design (segue) Come si modella la relazione tra variabile risposta, criterio esterno di selezione (punteggio) e trattamento (esclusione/inclusione)? Il modello che a noi serve è uno che includa sia la variabile-trattamento, sia la variabile punteggio, in modo da stimare l’effetto della politica al netto del punteggio, cioè effetto del trattamento (della politica) Questo modello però non è ancora quello che cerchiamo La differenza tra le due rette (la distanza verticale) indica l’effetto della politica Per t = 0 Per t = 1 La pendenza: le due rette sono parallele
Regression Discontinuity Design (segue) Che la relazione tra punteggio e variabile risposta sia lineare e la stessa nel gruppo dei Trattati e dei Non-trattati è una restrizione non necessaria che può essere eliminata inserendo nel modello l’interazione tra punteggio e var-trattamento, cioè: intercetta Per t = 0 inclinazione Per t = 1 intercetta inclinazione Non è costante e varia al variare del punteggio L’effetto più credibile è quello che si calcola per il punteggio nella soglia.
Grazie! michela.gnaldi@stat.unipg.it 075 585 5237