La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Sabrina Aulitto Università Cattolica del Sacro Cuore di Milano.

Presentazioni simili


Presentazione sul tema: "Sabrina Aulitto Università Cattolica del Sacro Cuore di Milano."— Transcript della presentazione:

1 Sabrina Aulitto Università Cattolica del Sacro Cuore di Milano

2 1. Note introduttive 2. Definire un corpus 3. Il contenuto del corpus 4. Corpus-Didattica: un binomio possibile? 5. Strumenti informatici 6. Proposta di studio applicato 7. Conclusioni 30/09/ Sabrina Aulitto

3 La linguistica computazionale studia tecniche di rappresentazione e modalità di elaborazione, di espressione linguistiche al fine di riprodurre su macchina alcune capacità linguistiche tipiche degli essere umani: - Riconoscimento della correttezza di frasi; - Generazioni di frasi; - Comprensione del significato di frasi. M. Benedetti, Introduzione alla linguistica computazionale, in Formare i Formatori. Una proposta di aggiornamento per gli insegnanti di lingua, a cura di M. Negri, A. Villamira e J. Villar, Roma, FrancoAngeli, 1999, p /09/ Sabrina Aulitto

4 «Una delle discipline che affonda le sue radici nelle origini della linguistica computazionale stessa è la linguistica dei corpora, la quale si occupa del trattamento del linguaggio naturale ai fini della produzione di lessici di testi specifici, di concordanze e di studi statistici». G. W ILLIAMS, Introduction, « TEXTE ET CORPUS», 3, août, 2008, Actes des Journées de la linguistique de Corpus 2007, p /09/ Sabrina Aulitto

5 Grandi corpora di testi sono da tempo per i linguisti uno strumento duso quotidiano poiché hanno contribuito e contribuiscono allarricchimento di database finalizzati a scopi di ricerca e didattica. I principali tipi di corpora adoperati per finalità di ricerca descrittiva e pedagogica sono innanzitutto corpora bilingui e multilingui che a loro volta si distinguono in corpora paralleli e corpora comparabili 30/09/ Sabrina Aulitto

6 2. DEFINIRE UN CORPUS Un corpus parallelo comprende testi sia nella loro lingua originaria, sia in traduzioni in unaltra lingua. […] Un corpus comparabile non contiene, invece, testi in traduzione, ma testi in originale in lingue diverse. […] I corpora comparabili permettono di confrontare due o più lingue rispetto allo stesso genere testuale o dominio tematico, dal momento che i testi sono tutti originali, i dati raccolti possiedono un maggior grado di naturalezza, evitando le artificiosità che talvolta conseguono dallopera di traduzione. Cfr, A. Lenci, Testo e computer – Elementi di linguistica computazionale, Carocci Roma, 2005, pp /09/ Sabrina Aulitto

7 30/09/ Sabrina Aulitto In un corpus il numero di termini ne rappresenta la sua autenticità, conferendo a sua volta alle parole funzioni ben definite, in quanto possono essere analizzate secondo la classificazione seguente: La parola grafica ( sequenza di caratteri compresi tra due bianchi o segni di interpunzione); Le occorrenze o word tokens (comprendono le forme flesse, quindi anche le occorrenze delle parole testuali); Le parole o word types (si intendono le parole diverse tra loro).

8 In relazione a tale suddivisione un aspetto interessante da calcolare è lo studio della frequenza attraverso il rapporto tra il numero di types e il numero di tokens, che fornisce una misura della varietà lessicale di un testo. La formula per calcolare il rapporto types/tokens ratio, è ottenuta automaticamente dai software che eseguono analisi statistiche sui testi. 30/09/ Sabrina Aulitto

9 Cobuild - Collins Collins Birmingham University International Language Database è un fonademntale progetto di analisi lessicale computerizzato basato su coropora di lingua inglese, avviato nel 1980 dal prof. John Sinclair e i cui frutti – dizionari, corsi di lingua, corpora elettonci di riferimento per gli apprendenti- sono stati a tuttoggi numerosi e apprezzati. Per il suo utilizzo è necessario lacquisto di licenze relative alle diverse sezioni di cui è composto. 30/09/2010 Sabrina Aulitto 9

10 British National Corpus – Oxford E uno dei corpora più rappresentativi, in quanto conta 100 milioni di parole. La raccolta cominciò nel 1991 e attualmente presenta sia testi scritti (90%) che testi audio (10%). Il suo accesso non è libero, ma prevede un costo variabile in base alla sezione da consultare. 30/09/2010 Sabrina Aulitto 10

11 FRANTEXTE E un corpus letterario realizzato dal centro di ricerca ATILF (Analyse et traitement informatique de la langue française) dellUniversité de Nancy. La consultazione di questa base testuale è possibile attraverso un abbonamento. Le possibilità di interrogazione del corpus vertono sulla ricerca di parole o intere espressioni allinterno delle opere letterarie raccolte. 30/09/2010 Sabrina Aulitto 11

12 Corpus multilingue comparato, ricavato dalla raccolta di articoli tratti da dieci testate giornalistiche internazionali, le quali hanno prestato particolare interesse allo sviluppo delle problematiche affrontate dalla compagnia aerea italiana Alitalia relative allanno Gli articoli sono stati acquisiti dal web e codificati. Periodo, settembre - ottobre 2008 Numero complessivo degli articoli: 364 Numero di tokens: Numero di types: /09/ Sabrina Aulitto

13 I quotidiani consultati per la realizzazione del corpus si riferiscono a tre codici linguistici diversi: per la lingua italiana sono stati scelti i quotidiani come La Repubblica, Il sole 24 ore e Milano-Finanza; Per la lingua francese Les échos, Le parisien e Le figaro; Per la lingua inglese Times-online, Guardian, Financial-Time e International Herald Tribune. 30/09/ Sabrina Aulitto

14 30/09/ Sabrina Aulitto Un corpus multilingue con queste caratteristiche implica altresì lanalisi degli impieghi diversi che esso può avere ai fini di ricerche di linguistica applicata o come supporto didattico per corsi di lingua orientati verso lo studio del linguaggio di specialità, economico- finaziario, in dimensioni linguistiche e prospettive culturali diverse.

15 Lidea del possibile connubio corpus- didattica è legata ad un approccio esplorativo, in cui gli studenti cercano di analizzare i fenomeni e di verificarli nella prassi linguistica. La disponibilità di ampie basi di dati linguistici e di programmi di concordanze per analizzarli, consente oggi di affrontare tale complessità con qualche strumento in più. 30/09/ Sabrina Aulitto

16 DEFINIRE GLI OBIETTIVI Lobiettivo primario della realizzazione del nostro corpus si pone dunque in una prospettiva di tipo didattico, e parte da unipotesi di somministrazione di una raccolta di testi inerenti ad un unico campo di indagine, ad un campione di studenti che abbia buone competenze relative alla tre dimensioni linguistiche scelte. 30/09/ Sabrina Aulitto

17 Partendo dallanalisi del nostro obiettivo primario, orientato verso lespletamento di questo corpus ai fini didattici, è importante sottolineare, come precisa Elena Tognini Bonelli, che un corpus presenta una serie di parametri che lo distingue dal singolo testo, come la sua lettura frammentaria e verticale e non per intero e orizzontale come nel caso del testo singolo, in più il corpus offre informazioni circa la langue mentre il testo è un esempio di parole. 30/09/ Sabrina Aulitto

18 30/09/ Sabrina Aulitto Quindi, come può un corpus, con queste tratti distintivi risultare un utile e proficuo supporto didattico? FINALITA: 1. Esercizi di lettura e comprensione del testo o dei testi somministrati; 2. Acquisizione di una competenza interrogativa; 3. Identificazione de profilo lessicale ( collocation); 4. Identificazione delle regolarità lessico- grammaticali (colligation); 5. Considerazioni riguardanti il campo semantico comune (preferenza semantica); 6. Considerazioni riguardanti le realizzazioni pragmatiche (prosodia semantica) dove la prosodia semantica rappresenta lelemento più importante nello studio dei rapporti tra contesto e funzione. 7. Acquisizione di un linguaggio di tipo specialistico in relazione ad un settore specifico.

19 Nella fase applicativa dello studio di un corpus è necessario lutilizzo di programmi di concordanze che permettono di analizzare un corpus in diverse prospettive: 1. La frequenza; 2. Ricerca delle concordanze; 3. Ricerca delle collocazioni; 4. Ricerca dei clusters. 30/09/2010 Sabrina Aulitto 19

20 I programmi di concordanze sono disponibili in rete sia attraverso free download o attraverso lacquisto di una licenza. Alla prima categoria appartengono i programmi come: Antconc, Monoconc, Paraconc, Kwic. Alla seconda: Wordsmith Tools 30/09/2010 Sabrina Aulitto 20

21 ANTCONC 3.2 w - Generare file in TXT; - Inserire file nel programma; - Indicare il termine per la ricerca; - Scegliere il tipo di ricerca: Concordance, Concordance plot, File view, Clusters, Collocates, Word Iist; - Lanciare la ricerca; - Analizzare loutput. 30/09/2010 Sabrina Aulitto 21

22 PUNTI DI SVILUPPO Per raggiungere tali obiettivi la nostra analisi si è soffermata sullo studio delle frequenze, delle concordanze, delle collocazioni e dei clusters o segmenti ripetuti estratti dal corpus. In relazione a quanto finora precisato, il nostro percorso verso il raggiungimento delle finalità proposte è partito dallanalisi di cinque lemmi rispettivamente: in lingua italiana accordo, offerta, partner, piano, trattativa; in lingua francese accord, offre, partenaire, plan, négotiations; in lingua inglese agreement, offer, partners, plan, negotiations. 30/09/ Sabrina Aulitto

23 Tabella n Lanalisi rivela una disomogeneità dellimpiego dei cinque lemmi nei tre singoli sub-corpus, in cui spesso compare uno squilibrio tra le frequenze dei termini nelle diverse lingue. 2. Un caso interessante da analizzare è quello del lemma agreement, che nelle testate giornalistiche inglesi è utilizzato 46 volte, un numero inferiore rispetto allequivalente italiano accordo (164) e allequivalente francese accord (190). 30/09/ Sabrina Aulitto

24 Si potrebbe ipotizzare lutilizzo di un suo sinonimo. Dalla ricerca delle rispettive similarità semantiche si evince che il sinonimo che presenta più semi in comune con agreement è pact, il quale si ripete una sola volta in tutto il corpus inglese, due volte in quello italiano, patto e quattro volte in quello francese, pacte. E chiaro che limpiego di sinonimi non fornisce una spiegazione sufficiente a tale fenomeno, in realtà la disparità potrebbe anche essere dovuta al modo in cui è espressa la notizia e al paese in cui si vive linformazione. 30/09/ Sabrina Aulitto

25 UNIONS E ACCORD Unions con 261 occorrenze; Possibile motivazione: la tematica della mobilitazione dei sindacati è stata maggiormente affrontata dalle testate giornalistiche inglesi; contrariamente le testate giornalistiche francesi presentano il lemma syndicat solo 32 volte Una notevole frequenza del termine accord (196), nella stampa francese, anche del suo sinonimo alliance (92 volte), che potrebbe essere motivata dal coinvolgimento della Francia nelle trattativa tra Alitalia e Air France. 30/09/ Sabrina Aulitto

26 Individuazione dellhabitat linguistico in cui ricorrono i lemmi selezionati. (Tabella. 2) Ai fini didattici la visualizzazione delle concordanze e delle collocazioni, oltre a comunicare unidea di testo e di testi frammentaria, (presentando lelenco di tutte le parole presenti nel corpus, quante volte e come si collocano allinterno della loro stringa di appartenenza), permette allo studente di acquisire delle competenze, attraverso una metodologia innovativa di analisi testuale, prevalentemente concentrata sullo studio dellimpiego del lessico in un dato contesto. 30/09/ Sabrina Aulitto

27 Tali applicazioni, consentono di visualizzare la fitta rete semantica relativa ad un termine dato, evidenziandone la sua contestualizzazione, i suoi sinonimi e i sinonimi dei verbi o aggettivi ad esso associabili, al fine di raggiungere delle competenze linguistiche approfondite in un settore specifico comparativamente in tre lingue. Analisi dei sintagmi verbali, estrapolati dalla ricerca delle concordanze, appartenenti ai cinque lemmi selezionati a partire dal corpus italiano. Individuare se nel corpus di lingua francese e nel corpus di lingua inglese esistono sintagmi corrispondenti o ulteriori alternative. (Tabella. 2, 3,4,5,6) 30/09/2010 Sabrina Aulitto 27

28 30/09/2010 Sabrina Aulitto 28 Dallanalisi dei dati ricavati dalle cinque tabelle è percepibile una limitata corrispondenza di lemmi nelle tre lingue, in quanto non si tratta di corpora paralleli, bensì di corpora comparabili. Potremmo considerare un corpus comparabile come un serie di testi aperti e non particolarmente pigri, dai quali è possibile trarre spunto per numerose esercitazioni in aula, come colmare le corrispondenze mancanti nelle tabelle, completando il panorama relativo ai sintagmi verbali dei lemmi scelti.

29 30/09/2010 Sabrina Aulitto 29 Potrebbe essere interessante effettuare la medesima operazione di completamento analizzando i sintagmi nominali, oppure le preposizioni che seguono tale lemma, in modo da poter identificare il profilo semantico e sintattico di una serie di unità linguistiche selezionate. Unaltra possibile applicazioni: - realizzazione di banche dati, relative ad un settore linguistico di specialità come quello economico-finanziario in tre codici linguistici diversi.

30 Risulta, altresì, interessante e utile ai fini di un apprendimento mirato, unanalisi comparata dei clusters e delle collocazioni, che prevede lestrapolazione di singoli lemmi ( per lo studio delle collocazioni) e di segmenti o gruppi di parole ( per lanalisi dei clusters) che si ripetono in un corpus, visualizzati attraverso un programma di concordanze. 30/09/2010 Sabrina Aulitto 30

31 Collocazioni e Clusters Una ricerca per clusters analizza in un corpus gli spezzoni di testo che ricorrono più volte, a seconda della loro lunghezza in parole. La differenza con le collocazioni è evidente: i clusters prevedono che i segmenti ripetuti siano adiacenti e che la loro sequenza non sia interrotta da nessun altro elemento, e costituiscono per questo un tipo di relazione più stretta; quello di collocazione, è un concetto più ampio, che comprende sia i segmenti adiacenti che cooccorrenze di una parola in prossimità di altre, in base alla definizione della lunghezza del contesto. (A. Lenci Testo e computer – Elementi di linguistica computazionale) 30/09/2010 Sabrina Aulitto 31

32 Nel caso del nostro corpus abbiamo estratto dal software i clusters e le collocazioni corrispondenti al lemma stampa. Tra i clusters abbiamo, conferenza stampa, comunicato stampa, agenzie di stampa, sala stampa, fra le collocazioni abbiamo le preposizioni o i verbi che accompagnano lunità linguistica stampa. Una proposta didattica può essere quella di individuare i clusters equivalenti nei diversi codici linguistici. (Tabella. 7) 30/09/2010 Sabrina Aulitto 32

33 30/09/2010 Sabrina Aulitto 33 Nel nostro caso la ricerca automatica, con laiuto del software AntConc, rivela lassenza di clusters equivalenti per i segmenti individuati in lingua italiana, nel sub-corpus francese mentre un solo risultato nel sub-corpus inglese con press conference. Si potrebbe quindi proporre anche in questo caso un tipo di esercitazione che richieda la ricerca delle traduzioni equivalenti dei clusters del lemma stampa nelle tre lingue. Anche questesercitazione di scorporazione e frammentazione di un corpus, fornisce unanalisi della lingua che permette di acquisire una maggiore padronanza del lessico contestualizzato, oltre che di visualizzare il modo in cui co-occorrono allinterno del corpus.

34 In generale, le proposte di esplorazione del linguaggio in una dimensione plurilingue richiamano ad unidea di interattività e di costruzione di regole e significati a partire da esempi non predefiniti, ma ricavati dallo studente attraverso il supporto dei mezzi informatici, un approccio che favorisce lo sviluppo di abilità autonome di apprendimento. 30/09/2010 Sabrina Aulitto 34

35 Quindi è noto come in questo contesto lanalisi dei dati linguistici tragga vantaggio dallapporto delle nuove tecnologie, le quali dispongono di molteplici strumenti di indagine per lo sviluppo di diverse competenze e abilità, dalle nozioni di grammatica generica allapprofondimento dellappropriatezza contestuale, quale la lingua di specialità e infine lacquisizione di una tale proprietà di linguaggio, dovuta alla mole infinita di dati linguistici a disposizione, che tende a colmare quelle comuni lacune che differenziano unapprendente da un nativo. 30/09/2010 Sabrina Aulitto 35

36 Il possibile connubio tra didattica e limpiego di corpora come strumento di apprendimento, permette di raggiungere una nuova concezione della lingua e una nuova concezione della didattica, come facendo leva su una risorsa che si avvale dell abilità e della proprietà di un singolo individuo di disporre di vari tipi di competenze linguistiche in codici diversi. 30/09/2010 Sabrina Aulitto 36


Scaricare ppt "Sabrina Aulitto Università Cattolica del Sacro Cuore di Milano."

Presentazioni simili


Annunci Google