Mirta Vernice Università Milano-Bicocca

Mirta Vernice Università Milano-Bicocca mirta.vernice@unimib.it
Metodologia della ricerca e analisi dei dati in (psico)linguistica Giugno 2015 Bognanco (VB) Mirta Vernice Università Milano-Bicocca

Cosa ci aspetta? 5 giorni, 10 lezioni con altrettante esercitazioni, vostre presentazioni personali. Basi di statistica descrittiva e inferenziale; Familiarizzazione con Excel e R; Accenno a tecniche di analisi statistica con R.

Obiettivo della summer school
Pensare in modo più consapevole agli esperimenti (già condotti o da condurre); Possibilità di approfondire autonomamente tecniche di analisi dei dati più complesse.

Le nostre giornate 9:15-10:45 Lezione teorica
11:00-13:00 Esercitazione 13:00-14:30 Pausa 14:30-16:00 Lezione teorica 16:00-17:45 Esercitazione/talk 18:00-19:00 Passeggiata

Sito del corso http://esercitazionestatistica.pbworks.com
Cliccare sul link Summer school. Troverete tutto il materiale rilevante.

Quali testi?

Analizzare dati linguistici con R

Nota bene Richiedono una (seppur minima) pregressa conoscenza statistica!

Come contattarmi https://sites.google.com/site/mirtavernice/

1^ giornata Mattina: Metodologia della ricerca
Misurare Manipolare Cenni sui diversi disegni sperimentali Pomeriggio: Esplorare i dati Predisporre un file dati per l’analisi Metodi per indagare come si distribuiscono

2^ giornata Mattina: Statistica descrittiva
Frequenza Misure di tendenza centrale e dispersione Pomeriggio: Distribuzioni teoriche di probabilità Punti z; Distribuzione binomiale.

3^ giornata Mattina: Introduzione ad R Pomeriggio: Prime funzioni in R
Familiarizzazione con Rstudio; Dalle variabili ai data frame; Dai comandi alle funzioni. Pomeriggio: Prime funzioni in R Impostare un file dati per l’analisi in R; Installare e caricare pacchetti.

4^ giornata Mattina: GLM Pomeriggio: GLM in R Cross tabulazione
Introduzione ai modelli di Analisi della varianza; Pomeriggio: GLM in R Regressione semplice; Calcolare il fit di un modello; Interpretazione di un output.

5^ giornata Mattina: Regressione multipla in R
Interpretazione di un output Pomeriggio: Modelli misti in R Effetti random Reference level

Domande?

Metodologia della ricerca
Individuare un oggetto di indagine Lettura/produzione sintattica/accesso lessicale/ e un paradigma sperimentale Self paced reading/masked priming/ecc. Disegnare un esperimento Costruirlo Testare partecipanti Analizzare i dati

Da cosa si parte? Da una ipotesi… Per esempio?

Ipotesi sperimentali Parole bisillabiche lette più velocemente di parole trisillabiche. Parole acquisite prima lette più velocemente di parole meno frequenti. (punto critico: come definiamo AoA?)

Burani et al., 2002 Parole morfologicamente complesse lette più velocemente di parole non complesse, a parità di numero di lettere e frequenza. CAMMELLO RT > CASSIERE Ma solo in popolazioni a sviluppo atipico (es. dislessici).

Hp sperimentale Deve essere verificata. Come si procede?
Prevedere che tipo di risultato si otterrebbe assumendo che l’Hp sperimentale sia valida; Prevedere che tipo di risultato si otterrebbe assumendo che l’Hp sperimentale NON lo sia.

Hp sperimentale vs. Hp nulla
Nel caso di Burani et al., 2002? Definiamo Hp sperimentale e Hp nulla.

Hp Nulla: importante No: Non esiste relazione tra i due eventi (complessità morfologica delle parole/velocità lettura/popolazione a sviluppo atipico vs. tipico) Bensì: le eventuali variazioni riscontrate negli eventi considerati sono dovute al CASO.

Hp sperimentale Predice una relazione tra due o più eventi (complessità morfologica di una parola/velocità di lettura); Assume che questo si verifichi in una popolazione a sviluppo atipico. Come chiamiamo questi eventi?

Variabili dipendenti/indipendenti
Variabile dipendente: quella che misuro. Variabile indipendente: quella che manipolo. Indipendente: Causa Dipendente: Effetto

Variabile indipendente
Che significa manipolare? Variare. Condizioni sperimentali: diverse “versioni” in cui può comparire un item nell’esperimento (es. parole complesse vs. non complesse).

Variabile dipendente Quella che posso misurare.
Su cui conduco l’analisi dei dati. La natura della variabile dipendente determina il tipo di analisi.

Variabile dipendente Variabile categorica Variabile continua
corretto/sbagliato attivo/passivo SVO/OVS Variabile continua Tempo di lettura (Reading time) RTs (Reaction time)

Una Hp sperimentale… Permette di predire chiaramente sia quello che avverrà, sia ciò che non avverrà.

Statistica Permette di verificare se l’Hp sperimentale è verificata oppure no. Quando Hp sperimentale non è verificata, non è detto che Hp nulla lo sia. Si dirà semplicemente che bisogna rigettare Hp sperimentale.

Dan Navarro “Statistics is deeply intertwined with research design. If you want to be good at designing psychological studies, you need to understand the basics of stats.”

Un esempio

Carminati, 2002; 2005 Esperimento Self paced reading
Position of Antecedent Strategy (PAS): In contesti anaforici osserva che: Pronomi nulli sono assegnati a un antecedente in Spec IP (in genere, il soggetto). Pronomi espliciti sono assegnati (di solito) a un antecedente non-soggetto.

Carminati, 2002; 2005 1a. Quando Vanessa ha visitato Giovanna in ospedale, lei le ha portato un mazzo di fiori. 1b. Quando Vanessa ha visitato Giovanna in ospedale, Ø le ha portato un mazzo di fiori. 1c. Quando Vanessa ha visitato Giovanna in ospedale, lei era già fuori pericolo. 1d. Quando Vanessa ha visitato Giovanna in ospedale, Ø era già fuori pericolo.

Self Paced Reading Quando ____ ____ ____ ___ ___ ____ ___ ___ ____

Self Paced Reading ____Vanessa ____ ____ ___ ___ ____ ___ ___ ____

Self Paced Reading ____ ____ ha ____ ___ ___ ____ ___ ___ ____

Self Paced Reading ____ ____ ____visitato ___ ___ ____ ___ ___ ____ ___

Disegno fattoriale Manipolazione 2x2
2(Pronoun: overt vs. null) x 2 (Semantically plausible co-referent: object vs. subject). Manipolazione within items e within subjects. Cosa significa?

Carminati, 2002; 2005 1a. Quando Vanessa ha visitato Giovanna in ospedale, lei le ha portato un mazzo di fiori. 1b. Quando Vanessa ha visitato Giovanna in ospedale, Ø le ha portato un mazzo di fiori. 1c. Quando Vanessa ha visitato Giovanna in ospedale, lei era già fuori pericolo. 1d. Quando Vanessa ha visitato Giovanna in ospedale, Ø era già fuori pericolo.

Lista latin square Soggetto 1 Item 1 condizione a Item 2 condizione b
Item 3 condizione c Item 4 condizione d Item 5 condizione a ….

Lista latin square Soggetto 2 Item 1 condizione b Item 2 condizione c
Item 3 condizione d Item 4 condizione a Item 5 condizione b ….

Latin square Vetrata commemorativa in onore di Ronald Fisher Caius College, Cambridge

Manipolazione Può essere: Entro item (within-items)
Tra item (between-items) Entro soggetti (within-subjects) Tra soggetti (between-subjects)

Between/within items Manipolazioni “between-” richiedono MOLTI partecipanti. Necessario manipolare ordine di occorrenza dei trial tra soggetti. Manipolazioni “within-” richiedono un numero più limitato di partecipanti perché controllano variabilità soggetti/item.

Pilot study/Norming Nella costruzione item sperimentali controllare:
Frequenza verbi/NP Accettabilità Familiarità AoA (age of acquisition)

E i filler? Necessari. “Assorbono” la manipolazione degli item sperimentali. Almeno 3 volte il numero degli item sperimentali.

Partecipanti Adulti Popolazioni specifiche? Bambini? Bilingui? SLI?
Quali criteri di inclusione? Impatto sul disegno dell’esperimento. Importante: somministrare un questionario sul background linguistico-culturale

Partecipanti Quanti ce ne vogliono? Dipende dal nostro studio.
È within o between subjects? Quante condizioni sperimentali abbiamo? NB: in genere minimo 6 partecipanti per ogni lista latinsquare.

Partecipanti Mai lasciarli a sé stessi…
Istruzioni possono fare la differenza. Rating di accettabilità scala -5 punti: A. “….basa le tue risposte sulla tua intuizione di parlante nativo” B. “…credi che un professore di italiano accetterebbe questa espressione?”

Metodologia e statistica nel paper

Introduzione Breve introduzione dell’area di indagine
Cenni su qualche ricerca condotta in precendenza Scopo dello studio Breve descrizione dei metodi Ipotesi

Nell’introduzione Dopo aver brevemente spiegato il metodo, introdurre l’ipotesi Ipotesi: A) “Ci si aspetta una differenza tra condizione X e Y” oppure: B) “Ci si aspetta una performance migliore nella condizione X rispetto a Y”

Che differenza tra queste due ipotesi?
Hp direzionale; Hp non direzionale; Avrà delle implicazioni sull’analisi statistica che condurremo.

Metodo Sottosezioni: Participanti: Chi?
Materiali: Cosa è stato usato? Descrivere gli item. Disegno: Quale manipolazione sperimentale è stata attuata? Procedura: Come si è svolto l’esperimento?

Partecipanti 20 studenti (3 M) dell’Università X hanno preso parte al nostro studio. Tutti i partecipanti avevano una vista nella norma.

Materiali Indicare: Item sperimentali utilizzati (quanti erano, come erano) Eventuali filler Supporti tecnici usati per la somministrazione (foglio di risposta, computer)

Disegno Variabile dipendente Variabile indipendente
Com’è stata manipolata var indipendente? Within- (entro) o between-(tra) participants?

Procedura Tipo di somministrazione (individuale o collettiva?)
Come si è svolto l’esperimento? Che tipo di istruzioni hanno ricevuto?

Metodo: Importante Chi lo legge deve essere in grado di replicare al dettaglio l’esperimento!

Risultati 2 informazioni
Statistica descrittiva (punteggi grezzi, misure di tendenza centrale, di dispersione, frequenze, percentuali); Statistica inferenziale (valori ottenuti dall’applicazione di un test statistico).

La statistica descrittiva elabora dati per descrivere fenomeni;
La statistica inferenziale stima le caratteristiche di un fenomeno che si riferisce a una popolazione a partire dall’analisi delle caratteristiche di un campione.

Popolazione e campione
L’insieme di unità (persone, piante, città, ecc.) su cui vogliamo generalizzare un certo risultato (o un modello statistico). Campione Un insieme più piccolo di unità (ma idealmente rappresentativo) estratte da una popolazione, usato per determinare delle caratteristiche circa quella popolazione.

 = 10 Popolazione

Caveat Dati descrittivi sono puramente speculativi! (non si può concludere granché a partire da una media o da una percentuale...) Solo statistica inferenziale permette di confermare che l’Hp sperimentale sia valida (o meglio che non sia valida l’Hp nulla…).

Caveat 2 Entrambe indispensabili;
La descrittiva precede l’inferenziale; offre informazioni cruciali per esplorare i dati. L’inferenziale stabilisce generalizzabilità risultati all’intera popolazione.

Risultati Descrittivi
NB: se i dati (medie e dev standard) sono riportati nelle Tavole, non occorre ripeterle nel testo. Altrimenti, nel testo bisogna includere i numeri esatti.

Tavole Tavola 1: Proporzione di risposte corrette tra partecipanti di genere maschile e femminile. Condizione 1 Condizione 2 M SD M SD Donne Uomini Importante: in genere si mette sempre media (M), e Deviazione Standard (DS) (oppure, se non DS, Errore Standard, SE).

Risultati Statistica inferenziale
“L’analisi ha permesso di rilevare una significativa differenza tra la condizione X e Y.”

Tipi di studi

Ricerca sperimentale Una o più variabili manipolate sistematicamente per osservare l’effetto (da solo o combinato) che causano su una ulteriore variabile. È possibile stabilire un rapporto di causa-effetto tra variabili. Si applica alla maggioranza degli studi in psicolinguistica.

Ricerche Cross-sectional
I dati sono raccolti da partecipanti di diverse età (es. 6 mesi, 12, 18 mesi), ogni gruppo di età è costituito da partecipanti diversi. ≠Studi longitudinali Stesso partecipante testato in diverse età della sua vita.

Studi correlazionali Osservare quello che avviene senza interferire sperimentalmente (manipolare una variabile). Indagare relazione tra abilità in prove diverse di uno o più gruppi di partecipanti. Es. Accuratezza in lettura e accuratezza ortografica in scrittura.

Altre nozioni utili

Nozione di Causa-Effetto
Abituarsi a pensare all’indipendente come causa e la dipendente come effetto. Devono essere contigue (nel tempo). L’effetto non deve occorrere in presenza della causa.

I “Confounding” Una variabile (che in genere non abbiamo controllato), diversa dalla nostra indipendente, che potenzialmente può avere un effetto sulla dipendente; Es. La relazione tra età e competenza morfosintattica potrebbe essere influenzato da SES.

Eliminare i confounding
Ruling out confounds (Mill, 1865) Un effetto deve essere presente quando la causa è presente. Quando la causa è assente anche l’effetto deve essere assente. Condizione di controllo: la causa è assente.

Paradigmi sperimentali
Repetition task/continuation task Priming (si adatta ad esperimenti di produzione/comprensione/accesso lessicale) Self paced reading Eye tracking (reading, visual word paradigm) Tecniche neuro…

Paradigmi sperimentali per lo studio della comprensione
79

Decisione lessicale Ascolta la parola e decidi: è una parola reale?
Var. dipendente: RT e accuratezza. 80

Linger Software gratuito per esperimenti self-paced reading.

Software per condurre esperimenti

Software commerciali Presentation E-prime
preparare lo script in e-prime e condurre l'esperimento con e-run (free).

PsyScope Disegnato per condurre tutti i tipi di esperimenti psicolinguistici. Misura RTs. NB: solo su Mac.

DMDX Adatto a diversi tipi di esperimenti di psicolinguistica. Misura i RTs rispetto a stimoli visivi e uditivi. NB: solo su PCs. Poco flessibile.

Praat Ottimo per esperimenti di identificazione o discriminazione di stringhe di suoni. Speech analysis/synthesis. MA non misura RTs.

Mechanical turk

Un esempio

Per oggi Avere una domanda di ricerca sensata.
Mantenere costante tutto quello che non interessa indagare. Sapere come “gestire” bias e altre variabili difficilmente controllabili. Costruire un esperimento bilanciato. Conoscere i propri dati descrittivi prima delle analisi statistiche.

Mirta Vernice Università Milano-Bicocca

Presentazioni simili

Presentazione sul tema: "Mirta Vernice Università Milano-Bicocca"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Mirta Vernice Università Milano-Bicocca

Presentazioni simili

Presentazione sul tema: "Mirta Vernice Università Milano-Bicocca"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back