Sabrina Aulitto Università Cattolica del Sacro Cuore di Milano Corpus multilingue: strumento di osservazione e strategie d'uso IN CONTESTI DIDATTICI Sabrina Aulitto Università Cattolica del Sacro Cuore di Milano
Linee guida Note introduttive Definire un corpus Il contenuto del corpus Corpus-Didattica: un binomio possibile? Strumenti informatici Proposta di studio applicato Conclusioni Sabrina Aulitto 30/09/2010
1. Note introduttive La linguistica computazionale studia tecniche di rappresentazione e modalità di elaborazione, di espressione linguistiche al fine di riprodurre su macchina alcune capacità linguistiche tipiche degli essere umani: Riconoscimento della correttezza di frasi; Generazioni di frasi; Comprensione del significato di frasi. M. Benedetti, “Introduzione alla linguistica computazionale”, in Formare i Formatori. Una proposta di aggiornamento per gli insegnanti di lingua, a cura di M. Negri, A. Villamira e J. Villar, Roma, FrancoAngeli, 1999, p102. Sabrina Aulitto 30/09/2010
1. Note introduttive «Una delle discipline che affonda le sue radici nelle origini della linguistica computazionale stessa è la linguistica dei corpora, la quale si occupa del trattamento del linguaggio naturale ai fini della produzione di lessici di testi specifici, di concordanze e di studi statistici». G. Williams, Introduction , « TEXTE ET CORPUS», 3, août, 2008, Actes des Journées de la linguistique de Corpus 2007, p. 23. Sabrina Aulitto 30/09/2010
Grandi corpora di testi sono da tempo per i linguisti uno strumento d’uso quotidiano poiché hanno contribuito e contribuiscono all’arricchimento di database finalizzati a scopi di ricerca e didattica. I principali tipi di corpora adoperati per finalità di ricerca descrittiva e pedagogica sono innanzitutto corpora bilingui e multilingui che a loro volta si distinguono in corpora paralleli e corpora comparabili Sabrina Aulitto 30/09/2010
2. DEFINIRE UN CORPUS “Un corpus parallelo comprende testi sia nella loro lingua originaria, sia in traduzioni in un’altra lingua. […] Un corpus comparabile non contiene, invece, testi in traduzione, ma testi in originale in lingue diverse. […] I corpora comparabili permettono di confrontare due o più lingue rispetto allo stesso genere testuale o dominio tematico, dal momento che i testi sono tutti originali, i dati raccolti possiedono un maggior grado di naturalezza, evitando le artificiosità che talvolta conseguono dall’opera di traduzione”. Cfr, A. Lenci, Testo e computer – Elementi di linguistica computazionale, Carocci Roma, 2005, pp.31-32. Sabrina Aulitto 30/09/2010
Le parole o word types (si intendono le parole diverse tra loro). In un corpus il numero di termini ne rappresenta la sua autenticità, conferendo a sua volta alle parole funzioni ben definite, in quanto possono essere analizzate secondo la classificazione seguente: La parola grafica ( sequenza di caratteri compresi tra due bianchi o segni di interpunzione); Le occorrenze o word tokens (comprendono le forme flesse, quindi anche le occorrenze delle parole testuali); Le parole o word types (si intendono le parole diverse tra loro). Sabrina Aulitto 30/09/2010
In relazione a tale suddivisione un aspetto interessante da calcolare è lo studio della frequenza attraverso il rapporto tra il numero di types e il numero di tokens, che fornisce una misura della varietà lessicale di un testo. La formula per calcolare il rapporto types/tokens ratio, è ottenuta automaticamente dai software che eseguono analisi statistiche sui testi. Sabrina Aulitto 30/09/2010
ESEMPI DI CORPORA Cobuild - Collins Collins Birmingham University International Language Database è un fonademntale progetto di analisi lessicale computerizzato basato su coropora di lingua inglese, avviato nel 1980 dal prof. John Sinclair e i cui frutti – dizionari, corsi di lingua, corpora elettonci di riferimento per gli apprendenti- sono stati a tutt’oggi numerosi e apprezzati. Per il suo utilizzo è necessario l’acquisto di licenze relative alle diverse sezioni di cui è composto. Sabrina Aulitto 30/09/2010
ESEMPI DI CORPORA British National Corpus – Oxford E’ uno dei corpora più rappresentativi, in quanto conta 100 milioni di parole. La raccolta cominciò nel 1991 e attualmente presenta sia testi scritti (90%) che testi audio (10%). Il suo accesso non è libero, ma prevede un costo variabile in base alla sezione da consultare. Sabrina Aulitto 30/09/2010
ESEMPI DI CORPORA FRANTEXTE E’ un corpus letterario realizzato dal centro di ricerca ATILF (Analyse et traitement informatique de la langue française) dell’Université de Nancy. La consultazione di questa base testuale è possibile attraverso un abbonamento. Le possibilità di interrogazione del corpus vertono sulla ricerca di parole o intere espressioni all’interno delle opere letterarie raccolte. Sabrina Aulitto 30/09/2010
3. Il contenuto del corpus Corpus multilingue comparato, ricavato dalla raccolta di articoli tratti da dieci testate giornalistiche internazionali, le quali hanno prestato particolare interesse allo sviluppo delle problematiche affrontate dalla compagnia aerea italiana “Alitalia” relative all’anno 2008. Gli articoli sono stati acquisiti dal web e codificati. Periodo, settembre - ottobre 2008 Numero complessivo degli articoli: 364 Numero di tokens: 161.863. Numero di types: 17. 119. Sabrina Aulitto 30/09/2010
Per la lingua francese “Les échos”, “Le parisien” e “Le figaro”; I quotidiani consultati per la realizzazione del corpus si riferiscono a tre codici linguistici diversi: per la lingua italiana sono stati scelti i quotidiani come “La Repubblica”, “Il sole 24 ore” e “Milano-Finanza”; Per la lingua francese “Les échos”, “Le parisien” e “Le figaro”; Per la lingua inglese “Times-online”, “Guardian”, “Financial-Time” e “International Herald Tribune”. Sabrina Aulitto 30/09/2010
Un corpus multilingue con queste caratteristiche implica altresì l’analisi degli impieghi diversi che esso può avere ai fini di ricerche di linguistica applicata o come supporto didattico per corsi di lingua orientati verso lo studio del linguaggio di specialità, economico- finaziario, in dimensioni linguistiche e prospettive culturali diverse. Sabrina Aulitto 30/09/2010
4. Corpus-Didattica: un binomio possibile? L’idea del possibile connubio corpus- didattica è legata ad un approccio esplorativo, in cui gli studenti cercano di analizzare i fenomeni e di verificarli nella prassi linguistica. La disponibilità di ampie basi di dati linguistici e di programmi di concordanze per analizzarli, consente oggi di affrontare tale complessità con qualche strumento in più. Sabrina Aulitto 30/09/2010
DEFINIRE GLI OBIETTIVI L’obiettivo primario della realizzazione del nostro corpus si pone dunque in una prospettiva di tipo didattico, e parte da un’ipotesi di somministrazione di una raccolta di testi inerenti ad un unico campo di indagine, ad un campione di studenti che abbia buone competenze relative alla tre dimensioni linguistiche scelte. Sabrina Aulitto 30/09/2010
testo e corpus Partendo dall’analisi del nostro obiettivo primario, orientato verso l’espletamento di questo corpus ai fini didattici, è importante sottolineare, come precisa Elena Tognini Bonelli, che un corpus presenta una serie di parametri che lo distingue dal singolo testo, come la sua lettura frammentaria e verticale e non per intero e orizzontale come nel caso del testo singolo, in più il corpus offre informazioni circa la langue mentre il testo è un esempio di parole. Sabrina Aulitto 30/09/2010
Acquisizione di una competenza interrogativa; Quindi, come può un corpus, con queste tratti distintivi risultare un utile e proficuo supporto didattico? FINALITA’: Esercizi di lettura e comprensione del testo o dei testi somministrati; Acquisizione di una competenza interrogativa; Identificazione de profilo lessicale ( collocation); Identificazione delle regolarità lessico- grammaticali (colligation); Considerazioni riguardanti il campo semantico comune (preferenza semantica); Considerazioni riguardanti le realizzazioni pragmatiche (prosodia semantica) dove la prosodia semantica rappresenta l’elemento più importante nello studio dei rapporti tra contesto e funzione. Acquisizione di un linguaggio di tipo specialistico in relazione ad un settore specifico. Sabrina Aulitto 30/09/2010
5. Strumenti informatici Nella fase applicativa dello studio di un corpus è necessario l’utilizzo di programmi di concordanze che permettono di analizzare un corpus in diverse prospettive: 1. La frequenza; 2. Ricerca delle concordanze; 3. Ricerca delle collocazioni; 4. Ricerca dei clusters. Sabrina Aulitto 30/09/2010
Esempi di programmi di concordanze I programmi di concordanze sono disponibili in rete sia attraverso free download o attraverso l’acquisto di una licenza. Alla prima categoria appartengono i programmi come: Antconc, Monoconc, Paraconc, Kwic. Alla seconda: Wordsmith Tools Sabrina Aulitto 30/09/2010
Funzioni e utilizzo ANTCONC 3.2 w Generare file in TXT; Inserire file nel programma; Indicare il termine per la ricerca; Scegliere il tipo di ricerca: Concordance, Concordance plot, File view, Clusters, Collocates, Word Iist; Lanciare la ricerca; Analizzare l’output. Sabrina Aulitto 30/09/2010
PUNTI DI SVILUPPO Per raggiungere tali obiettivi la nostra analisi si è soffermata sullo studio delle frequenze, delle concordanze, delle collocazioni e dei clusters o segmenti ripetuti estratti dal corpus. In relazione a quanto fin’ora precisato, il nostro percorso verso il raggiungimento delle finalità proposte è partito dall’analisi di cinque lemmi rispettivamente: in lingua italiana accordo, offerta, partner, piano, trattativa; in lingua francese accord, offre, partenaire, plan, négotiations; in lingua inglese agreement, offer, partners, plan, negotiations. Sabrina Aulitto 30/09/2010
i° Obiettivo: Ricerca delle Frequenze Tabella n. 1 L’analisi rivela una disomogeneità dell’impiego dei cinque lemmi nei tre singoli sub-corpus, in cui spesso compare uno squilibrio tra le frequenze dei termini nelle diverse lingue. Un caso interessante da analizzare è quello del lemma agreement, che nelle testate giornalistiche inglesi è utilizzato 46 volte, un numero inferiore rispetto all’equivalente italiano accordo (164) e all’equivalente francese accord (190). Sabrina Aulitto 30/09/2010
1. STUDIO DI UN CASO: Agreement Si potrebbe ipotizzare l’utilizzo di un suo sinonimo. Dalla ricerca delle rispettive similarità semantiche si evince che il sinonimo che presenta più semi in comune con agreement è pact, il quale si ripete una sola volta in tutto il corpus inglese, due volte in quello italiano, patto e quattro volte in quello francese, pacte. E’ chiaro che l’impiego di sinonimi non fornisce una spiegazione sufficiente a tale fenomeno, in realtà la disparità potrebbe anche essere dovuta al modo in cui è espressa la notizia e al paese in cui si vive l’informazione. Sabrina Aulitto 30/09/2010
Unions con 261 occorrenze; UNIONS E ACCORD Unions con 261 occorrenze; Possibile motivazione: la tematica della mobilitazione dei sindacati è stata maggiormente affrontata dalle testate giornalistiche inglesi; contrariamente le testate giornalistiche francesi presentano il lemma syndicat solo 32 volte Una notevole frequenza del termine accord (196), nella stampa francese, anche del suo sinonimo alliance (92 volte), che potrebbe essere motivata dal coinvolgimento della Francia nelle trattativa tra Alitalia e Air France. Sabrina Aulitto 30/09/2010
II°Obiettivo: concoradanze e collocazioni Individuazione dell’habitat linguistico in cui ricorrono i lemmi selezionati. (Tabella. 2) Ai fini didattici la visualizzazione delle concordanze e delle collocazioni, oltre a comunicare un’idea di testo e di testi frammentaria, (presentando l’elenco di tutte le parole presenti nel corpus, quante volte e come si collocano all’interno della loro stringa di appartenenza), permette allo studente di acquisire delle competenze, attraverso una metodologia innovativa di analisi testuale, prevalentemente concentrata sullo studio dell’impiego del lessico in un dato contesto. Sabrina Aulitto 30/09/2010
Tali applicazioni, consentono di visualizzare la fitta rete semantica relativa ad un termine dato, evidenziandone la sua contestualizzazione, i suoi sinonimi e i sinonimi dei verbi o aggettivi ad esso associabili, al fine di raggiungere delle competenze linguistiche approfondite in un settore specifico comparativamente in tre lingue. Analisi dei sintagmi verbali, estrapolati dalla ricerca delle concordanze, appartenenti ai cinque lemmi selezionati a partire dal corpus italiano. Individuare se nel corpus di lingua francese e nel corpus di lingua inglese esistono sintagmi corrispondenti o ulteriori alternative. (Tabella. 2, 3,4,5,6) Sabrina Aulitto 30/09/2010
Dall’analisi dei dati ricavati dalle cinque tabelle è percepibile una limitata corrispondenza di lemmi nelle tre lingue, in quanto non si tratta di corpora paralleli, bensì di corpora comparabili. Potremmo considerare un corpus comparabile come un serie di testi aperti e non particolarmente pigri, dai quali è possibile trarre spunto per numerose esercitazioni in aula, come colmare le corrispondenze mancanti nelle tabelle, completando il panorama relativo ai sintagmi verbali dei lemmi scelti. Sabrina Aulitto 30/09/2010
Un’altra possibile applicazioni: Potrebbe essere interessante effettuare la medesima operazione di completamento analizzando i sintagmi nominali, oppure le preposizioni che seguono tale lemma, in modo da poter identificare il profilo semantico e sintattico di una serie di unità linguistiche selezionate. Un’altra possibile applicazioni: - realizzazione di banche dati, relative ad un settore linguistico di specialità come quello economico-finanziario in tre codici linguistici diversi. Sabrina Aulitto 30/09/2010
III° obiettivo: ricerca dei clusters Risulta, altresì, interessante e utile ai fini di un apprendimento mirato, un’analisi comparata dei clusters e delle collocazioni, che prevede l’estrapolazione di singoli lemmi ( per lo studio delle collocazioni) e di segmenti o gruppi di parole ( per l’analisi dei clusters) che si ripetono in un corpus, visualizzati attraverso un programma di concordanze. Sabrina Aulitto 30/09/2010
Collocazioni e Clusters “Una ricerca per clusters analizza in un corpus gli spezzoni di testo che ricorrono più volte, a seconda della loro lunghezza in parole. La differenza con le collocazioni è evidente: i clusters prevedono che i segmenti ripetuti siano adiacenti e che la loro sequenza non sia interrotta da nessun altro elemento, e costituiscono per questo un tipo di relazione più stretta; quello di collocazione, è un concetto più ampio, che comprende sia i segmenti adiacenti che cooccorrenze di una parola in prossimità di altre, in base alla definizione della lunghezza del contesto”. (A. Lenci Testo e computer – Elementi di linguistica computazionale) Sabrina Aulitto 30/09/2010
STUDIO DI UN CASO: STAMPA Nel caso del nostro corpus abbiamo estratto dal software i clusters e le collocazioni corrispondenti al lemma stampa. Tra i clusters abbiamo, conferenza stampa, comunicato stampa, agenzie di stampa, sala stampa, fra le collocazioni abbiamo le preposizioni o i verbi che accompagnano l’unità linguistica stampa. Una proposta didattica può essere quella di individuare i clusters equivalenti nei diversi codici linguistici. (Tabella. 7) Sabrina Aulitto 30/09/2010
Nel nostro caso la ricerca automatica, con l’aiuto del software AntConc, rivela l’assenza di clusters equivalenti per i segmenti individuati in lingua italiana, nel sub-corpus francese mentre un solo risultato nel sub-corpus inglese con press conference. Si potrebbe quindi proporre anche in questo caso un tipo di esercitazione che richieda la ricerca delle traduzioni equivalenti dei clusters del lemma stampa nelle tre lingue. Anche quest’esercitazione di scorporazione e frammentazione di un corpus, fornisce un’analisi della lingua che permette di acquisire una maggiore padronanza del lessico contestualizzato, oltre che di visualizzare il modo in cui co-occorrono all’interno del corpus. Sabrina Aulitto 30/09/2010
CONCLUSIONI In generale, le proposte di esplorazione del linguaggio in una dimensione plurilingue richiamano ad un’idea di interattività e di costruzione di regole e significati a partire da esempi non predefiniti, ma ricavati dallo studente attraverso il supporto dei mezzi informatici, un approccio che favorisce lo sviluppo di abilità autonome di apprendimento. Sabrina Aulitto 30/09/2010
Quindi è noto come in questo contesto l’analisi dei dati linguistici tragga vantaggio dall’apporto delle nuove tecnologie, le quali dispongono di molteplici strumenti di indagine per lo sviluppo di diverse competenze e abilità, dalle nozioni di grammatica generica all’approfondimento dell’appropriatezza contestuale, quale la lingua di specialità e infine l’acquisizione di una tale proprietà di linguaggio, dovuta alla mole infinita di dati linguistici a disposizione, che tende a colmare quelle comuni lacune che differenziano un’apprendente da un nativo. Sabrina Aulitto 30/09/2010
Il possibile connubio tra didattica e l’impiego di corpora come strumento di apprendimento, permette di raggiungere “una nuova concezione della lingua e una nuova concezione della didattica”, come facendo leva su una risorsa che si avvale dell’ abilità e della proprietà di un singolo individuo di disporre di vari tipi di competenze linguistiche in codici diversi. Sabrina Aulitto 30/09/2010