La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim

Presentazioni simili


Presentazione sul tema: "Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim"— Transcript della presentazione:

1 Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim

2 Parametri di un corpus (1) Lingua: Monolingue Multilingui (corpora confrontabili) Paralleli Tipi di sorgenti: Scritto (generi) Parlato (radio, spontaneo, …) Misto

3 Parametri di un corpus (2) Dimensioni corpus size (= numero di token) vocabulary size (= numero di type) Dinamicità: statico/monitor Informazione aggiuntiva (annotazione/markup) annotato/non annotato livello di annotazione tipo di codifica (testo, SGML/XML)

4 Modi di usare un corpus Concordanze Liste di frequenza (token/type) Collocazioni Programmi appositi per la ricerca (specialmente laddove il corpus è annotato)

5 Dimensioni: type e token

6 Type e token Brown corpus: 1M tokens 50,406 types Birmingham/Cobuild corpora: 1M tokens (spoken only) 36,807 types 17,459 occorrono una volta sola Times newspapers 4M tokens 122,773 types 54,144 occorrono una volta sola general corpus of English 18m tokens 228,323 types 131,299 occorrono una volta sola

7 Type e token 121m tokens 475,633 types 213,684 occorrenze singole 211m tokens 638,901 types 323m tokens 812,467 types 418m tokens 938,914 types 438,647 occorrenze singole

8 Liste di frequenza liste che indicano le parole che compaiono in un corpus e la loro frequenza danno unimmagine quantitativa del corpus una lista di frequenza ottenuta su un dato corpus può essere confrontata con quella ottenuta su dati diversi NB: ciascuna parola è isolata dal contesto

9 N-grammi gruppi di N parole che appaiono in sequenza nel testo si presentano come liste di frequenza (a ciascun N-gramma è associato il numero di occorrenze) utili per identificare espressioni specifiche e ricorrenti in un corpus la parola non è completamente avulsa dal contesto

10 Collocazioni collocazione = N-gramma significativo (ricordate le misure di associazione?) collocati estratti data una certa finestra a sinistra (w-x) e destra (w+x) di una data parola (w) utili per identificare espressioni polirematiche e per studiare limmediato contesto di una parola (frames etc.)

11 Parametri di un corpus (2) Dimensioni corpus size (= numero di token) vocabulary size (= numero di type) Dinamicità: statico/monitor Informazione aggiuntiva (annotazione/markup) annotato/non annotato livello di annotazione tipo di codifica (testo, SGML/XML)

12 Annotazione Arricchimento di un corpus con informazione di vario tipo (sostanzialmente tutti i livelli di analisi linguistica che abbiamo discusso) speech (fonetica) parola: part of speech, classi, sensi, … frasi: confini, alberi sintattici, dipendenze, … discorso: segmenti, anafora, relazioni di coerenza, … oltre: variazioni, opinioni, sentimenti, …

13 Schema di annotazione rappresentazione di un dato fenomeno linguistico da annotare teorico + pratico accompagnato solitamente da un insieme di istruzioni per guidare lannotatore nelle scelte

14 Esempio We have developed a computational paradigm,......

15 Esempio schema

16 Livelli di annotazione sostanzialmente tutti i livelli di analisi di cui abbiamo parlato (e oltre…): speech morfosintassi lessico semantica discorso pragmatica altro

17 Principi di annotazione (Leech 93) l'annotazione deve poter essere rimossa lo schema per l'annotazione deve essere basato su regole precise ed essere anche a disposizione dell'utente deve essere sempre chiaro chi (quanti annotatori e con quali caratteristiche) e come (manualmente semi- automaticamente e con quali strumenti) ha annotato l'utente deve essere consapevole che l'annotazione non è ``oro" né infallibile e deve essere semplicemente considerata come strumento di lavoro lo schema di annotazione dovrebbe essere basato su principi il più possibile condivisi

18 Come annotare in pratica manualmente, attraverso strumenti di sostegno appositi: sveltiscono il processo riducono lerrore umano automaticamente (per esempio POS) semi-automaticamente: primo passo automatico seguito da correzione (spesso di una porzione) manuale

19 Costruire corpora Modi di acquisire/costruire corpora: Già in formato elettronico: conversione diretta Scansione da cartaceo Digitazione manuale Trascrizione di registrazioni (parlato)

20 Costruire corpora Lingua Dimensioni Genere (dominio, distribuzione, …) Dinamicità (statico/monitor) Annotazione

21 Costruire corpora è impegnativo! Selezione del materiale, permessi, acquisizione Pulizia, spell-checking, annotazione, indicizzazione Documentazione Valutazione Distribuzione

22 Distributori di corpora LDC (Linguistic Data Consortium) ELRA (European Language Resources Association) TRACTOR (TELRI Research Archive of Computational Tools and Resources) ICAME (International Computer Archive of Modern and Medieval English)

23 Web = corpus?

24 Il Web può essere una sorgente di testi estremamente utile (enorme) Può essere di grande aiuto specialmente per lingue diverse dallInglese (e lingue per cui corpora controllati già esistono) Non è bilanciato, non è pulito, non si sa esattamente cosa cè dentro…

25 Wacky! corpora creati dal Web ma ripuliti e annotati circa 2% di materiale tenuto ItWac, UkWac, …

26 Alcuni corpora esistenti Brown Corpus/LOB corpus Bank of English Wall Street Journal, Penn Tree Bank, BNC, ANC, ICE, WBE, Reuters Corpus Canadian Hansard: corpus parallelo inglese-francese York-Helsinki Parsed corpus of Old Poetry Tiger corpus – tedesco Europarl - corpora paralleli (lingue della Comunità Europea) …

27 Per lItaliano CORIS/CODIS (POS) La Repubblica (POS+lemma) ItWac (POS+lemma) TuT (Turin Treebank) VIT (Venice Italian Treebank) VENEX (anafora)

28 Altre risorse

29 Alcuni riferimenti Karin Aijmer and Bengt Altenberg (1991) English corpus linguistics, Longman Tony McEnery and Andrew Wilson (1996) Corpus linguistics, Edinburgh University Press Geoff Barnbrook (1996) Language and Computers, Edinburgh University Press Michael Oates (1998) Statistics for Corpus Linguistics, Edinburgh University Press Duglas Biber, Susan Conrad and Randi Reppen (1998) Corpus linguistics, Cambridge University Press Graeme D. Kennedy (1998) An introduction to corpus linguistics, Longman Tony McEnery (2003) Corpus linguistics. In Ruslan Mitkov (ed.) The Oxford Handbook of Computational Linguistics, Oxford University Press

30 Verso i corpora Linguisticamente: critiche a linguistica formale ed esempi ad hoc interesse per linguistica testuale/discorso Tecnologicamente: Disk space costa sempre meno Testi digitali sempre più diffusi Economicamente: USA: fondi per valutazione sistemi su larga scala e su dati reali

31 Verso le macchine Linguisticamente: formalizzazioni (grammatiche categoriali) filosofia del linguaggio e logica matematica (Wittgenstein) astrazione e grammatica universale Tecnologicamente: macchina di Turing (1936) nascita computer elettronici Storicamente/Economicamente: seconda guerra mondiale guerra fredda (specialmente anni 50)

32 Prime macchine : primi computer Zuse Z3 (Germania 1941) Atanasoff–Berry Computer (USA 1941) ENIAC (USA 1944) Electronic Numerical Integrator And Computer

33 Macchine intelligenti Può una macchina svolgere le funzioni della mente umana? Quandè che una macchina si può definire intelligente?

34 Macchine intelligenti Può una macchina svolgere le funzioni della mente umana? Se la mente umana è caratterizzata dal linguaggio, può la macchina essere fornita di linguaggio umano? È la capacità di linguaggio che rende intelligente una macchina?

35 Cartesio (1637) Discorso sul Metodo se ci fossero delle macchine somiglianti agli umani che sapessero imitare le nostre azioni nel miglior modo possibile, avremmo comunque due modi certi di riconoscerle come macchine: UNO: non potrebbero mai usare parole, o mettere insieme simboli, come invece noi facciamo per esprimere i nostri pensieri agli altri. Possiamo sì concepire una macchina che parla, ma non è pensabile che produca una risposta appropriata e che ha significato ad un qualsiasi input, come saprebbe invece fare anche il più insignificante degli uomini

36 Cartesio (1637) Discorso sul Metodo se ci fossero delle macchine somiglianti agli umani che sapessero imitare le nostre azioni nel miglior modo possibile, avremmo comunque due modi certi di riconoscerle come macchine: DUE: anche se alcune macchine possono svolgere dei compiti tanto bene quanto noi, o forse meglio, fallirebbero laddove è richiesto il ragionamento: rivelerebbero che agiscono non tanto tramite comprensione, quanto semplicemente per il modo in cui sono state costruite. È praticamente impossibile che una macchina abbia parti talmente elaborate che la rendano in grado di reagire agli stimoli della vita di ogni giorno come invece fa luomo mosso dalla ragione

37 Alan Turing (1950) articolo su Mind: è possibile creare un programma che permetta ad un computer di comportarsi in maniera intelligente comportarsi in maniera intelligente ?

38 Test di Turing scopo: determinare se una macchina pensa origine del test (gioco di imitazione): A = uomo B = donna C = terza persona che senza vedere A e B pone domande per cercare di capire chi è uomo e chi è donna

39 Test di Turing scopo: determinare se una macchina pensa in una conversazione, può una persona non accorgersi di stare parlando con una macchina invece che con unaltra persona?

40 ELIZA il primo chatterbot: un programma che imita la conversazione umana (1962/66) Joseph Weizenbaum (MIT) imitazione di una psicoterapia utente = paziente computer = psicoterapeuta il paziente digita qualcosa, la macchina risponde di conseguenza JW: parodia delle domande di uno psicoterapista

41 ELIZA P: Men are all alike. E: IN WHAT WAY? P: Theyre always bugging us about something or other. E: CAN YOU THINK OF A SPECIFIC EXAMPLE? P: Well, my boyfriend made me come here. E: YOUR BOYFRIEND MADE YOU COME HERE P: He says Im depressed much of the time. E: I AM SORRY TO HEAR YOU ARE DEPRESSED

42 ELIZA Its true. I am unhappy DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY I need some help, that much seems certain. WHAT WOULD IT MEAN TO YOU IF YOU GOT SOME HELP Perhaps I could learn to get along with my mother. TELL ME MORE ABOUT YOUR FAMILY

43 ELIZA My mother takes care of me. WHO ELSE IN YOUR FAMILY TAKES CARE OF YOU My father. YOUR FATHER You are like my father in some ways. WHAT RESEMBLANCE DO YOU SEE You are not very aggressive but I think you dont want me to notice that. WHAT MAKES YOU THINK I AM NOT VERY AGGRESSIVE You dont argue with me.

44 ELIZA WHY DO YOU THINK I DONT ARGUE WITH YOU You are afraid of me. DOES IT PLEASE YOU TO BELIEVE I AM AFRAID OF YOU My father is afraid of everybody. WHAT ELSE COMES TO YOUR MIND WHEN YOU THINK OF YOUR FATHER Bullies. DOES THAT HAVE ANYTHING TO DO WITH THE FACT THAT YOUR BOYFRIEND MADE YOU COME HERE

45 La strategia di ELIZA analisi input: ricerca di keyword se viene trovata una keyword, la frase viene trasformata seguendo alcune regole specifiche altrimenti viene selezionato un commento ``fuori dal contesto, standard, sempre valido viene selezionata una trasformazione precedente il testo creato/selezionato viene stampato sullo schermo per il paziente

46 ELIZA: regole di trasformazione I am X How long have you been X?" I am very unhappy How long have you been very unhappy? X you Y me What makes you think that I Y you? It seems that you hate me What makes you think that I hate you?

47 ELIZA da punto di vista terapeutico: fallimento! ma scopo originario: studiare la possibilità di costruire interazioni fra macchina e uomo basate sui linguaggi naturali ma è linguistica? conoscenza linguistica assente linguistic processing assente NB: ELIZA passa il test di Turing!

48 Traduzione automatica prima applicazione linguistica dei calcolatori (anni 50) forte motivazione storica: successo della crittografia (seconda guerra mondiale) necessità in guerra fredda (russo) riflessione linguistica: lingua universale

49 Traduzione automatica interlingua: data luniversalità della lingua si può pensare di passare da una lingua allaltra attraverso una rappresentazione astratta Leibniz e Cartesio (XVII sec): codici per trasformare parole da una lingua allaltra prime macchine di traduzione (non computer) già negli anni 30

50 Traduzione automatica Georgetown experiment (1954) traduzione completamente automatica di 50 frasi dal russo allinglese sistema estremamente semplice: sei regole grammaticali 250 vocaboli mini-dominio: chimica organica grande successo, soprattutto economico e mediatico entro tre/cinque anni: MT = solved problem!

51 Traduzione automatica ALPAC report (1966): Automatic Language Processing Advisory Committee enorme scetticismo sui progressi in MT lingua troppo complessa (aha!) necessari studi in linguistica computazionale fondi drasticamente ridotti

52 Traduzione automatica Systran (1970) russo -> inglese scopo principale: comprensione (anche se approssimativa) sistema ancora utilizzato in Altavista! (babelfish) oggi lezione è alle tre today lesson is to the three oggi la lezione è ai tre today the lesson is to the three

53 Anni Settanta 1970: TAUM Macchina del Tempo traduzione automatica delle previsioni del tempo (Canada) 1970s: SYSTRAN sistema di traduzione automatica (ancota usato da Altavista!) 1972: LUNAR: sistema di question-answering su dominio iper-ristretto (analisi di materiali rocciosi lunari) : SHRDLU (Terry Winograd): istruzioni ad un robot per spostare dei blocchi giocattolo

54 SHRDLU Terry Winograd, MIT (Ph.D.) sviluppa SHRLDU: sistema di interazione uomo-macchina in linguaggio naturale: lutente ordina alla macchina di svolgere alcuni compiti specifici in un dominio ristretto

55 SHRDLU: principi dominio ristretto: sufficienti alla descrizione circa 50 lemmi (palla, cono, blocco, sposta, sopra, rosso,…) memoria: la macchina ricorda lo status raggiunto dopo lordine (history) memoria: nuovi concetti vengono incamerati (es.: definizioni di alcune combinazioni) e possono essere richiamati

56 SHRDLU Person: Pick up a big red block. Computer: OK. Person: Grasp the pyramid. Computer: I don't understand which pyramid you mean. Person (changing their mind): Find a block which is taller than the one you are holding and put it into the box. Computer: By "it", I assume you mean the block which is taller than the one I am holding. Computer: OK.

57 SHRDLU Person: What does the box contain? Computer: The blue pyramid and the blue block. Person: What is the pyramid supported by? Computer: The box. Person: How many blocks are not in the box? Computer: Four of them. Person: Is at least one of them narrower than the one which I told you to pick up? Computer: Yes, the red cube.

58 SHRDLU comprende il linguaggio in un dominio (molto) limitato usando: grammatica per lInglese parsing sintattico (insieme di regole) ragionamento semantico

59 Minsky (1968) "Il problema della ricerca efficace con euristiche rimane un presupposto soggiacente [in IA], ma non è più il problema a quale pensare, dato che siamo immersi in sotto-problemi più sofisticati, ossia la rappresentazione e modifica di piani"

60 Scenari per aiutare una macchina a capire e prendere decisioni, si possono sviluppare alcuni scenari: Minsky: Frames Schank (& Abelson): Scripts modo di semplificare, aggirare il ragionamento da parte della macchina: sviluppo di abitudini modo di fornire alla macchina la conoscenza del mondo che gli umani naturalmente hanno e condividono

61 Overview/Sommario 50: traduzione automatica (stop a ricerca da ALPAC report) 60: applicazioni usano tecniche linguistiche, soprattutto sintattiche; influenza Chomsky (grammatiche formali). Domini ristretti, assenza di portabilità 70/80: approcci simbolici (sistemi di regole). Molta più consapevolezza (e ricerca!) linguistica. Consapevolezza necessità di conoscenza del mondo, ma difficoltà implementative

62 Overview/Sommario 90 Statistical NLP tecniche favorite da grandi quantità di dati disponibili problemi dati dalla qualità dei dati controsenso: spesso poca attenzione al problemi linguistici e maggiore attenzione a problemi computazionali ora: combinazioni di metodi simbolici e statistici, creazione (anche automatica) di risorse: grammatiche, basi di conoscenze

63 Applicazioni (e problemi linguistici) Spell e grammar checking correggere automaticamente un input calvin tira una plala di neve a hobbes calvin ho tirato un palla di neve a hobbes Speech recognition Derivare una rappresentazione testuale da un enunciato

64 Applicazioni (e problemi linguistici) Parsing assegnare una struttura sintattica ad una frase in input Machine Translation tradurre un testo da lingua A a lingua B Word Sense Disambiguation in casi di polisemia, individuare il significato di una parola in un dato contesto amo la pesca matura amo la pesca sul lago amo la pesca destate

65 Applicazioni (e problemi linguistici) Question Answering domanda in linguaggio naturale, risposta in linguaggio naturale Summarisation creare un riassunto da più testi su un dato argomento Semantic Role Labelling assegnare un ruolo tematico ad ogni argomento di un dato verbo

66 Questioni terminologiche Artificial Intelligence Linguistica Computazionale Natural Language Processing Human Language Technology Language Engineering


Scaricare ppt "Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim"

Presentazioni simili


Annunci Google