La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

DallIntelligenza Artificiale al Natural Language Processing Matteo Conci Clara Craffonara Martina Delladio Colorless green ideas sleep furiously. www.pinobruno.it.

Presentazioni simili


Presentazione sul tema: "DallIntelligenza Artificiale al Natural Language Processing Matteo Conci Clara Craffonara Martina Delladio Colorless green ideas sleep furiously. www.pinobruno.it."— Transcript della presentazione:

1 DallIntelligenza Artificiale al Natural Language Processing Matteo Conci Clara Craffonara Martina Delladio Colorless green ideas sleep furiously.

2 Talk to ELIZA I'm unhappy. Do you believe it is normal to be unhappy? Yes, sometimes, but not always. I am always unhappy. Did you come to me because you are always unhappy? Yes. I want to be happy again. What would it mean to you if you got to be happy again? It would be great. I would live my life with a new motivation. Can you elaborate on that? I would go out with my friends and I maybe find a boyfriend. You don't seem quite certain. My father doesn't believe that I find a boyfriend. I'm not sure I understand you fully.

3 ELIZA è una macchina o una persona?

4 ELIZA è un chatterbot, cioè un programma che simula una conversazione con una persona ELIZA è un chatterbot, cioè un programma che simula una conversazione con una persona programma creato nel 1966 da J. Weizenbaum programma creato nel 1966 da J. Weizenbaum simula una seduta da una psicoterapeuta, dove lutente è il paziente simula una seduta da una psicoterapeuta, dove lutente è il paziente

5 Test di Turing test di intelligenza per macchine test di intelligenza per macchine ideato da Alan Turing e pubblicato la prima volta nel 1950 ideato da Alan Turing e pubblicato la prima volta nel 1950 lelaborazione del linguaggio naturale non è condizione sufficiente e nemmeno necessaria per lintelligenza lelaborazione del linguaggio naturale non è condizione sufficiente e nemmeno necessaria per lintelligenza

6 Natural Language Processing (NLP) settore di ricerca integrato all'Intelligenza Artificiale e alla linguistica computazionale settore di ricerca integrato all'Intelligenza Artificiale e alla linguistica computazionale si occupa del trattamento automatico del linguaggio naturale si occupa del trattamento automatico del linguaggio naturale scopo: implementare strumenti informatici per analizzare, comprendere e generare testi nel linguaggio naturale scopo: implementare strumenti informatici per analizzare, comprendere e generare testi nel linguaggio naturale

7 Natural Language Understanding (NLU) problema dellIntelligenza Artificiale completo problema dellIntelligenza Artificiale completo richiede una conoscenza estesa del mondo e una grande capacità di manipolarlo richiede una conoscenza estesa del mondo e una grande capacità di manipolarlo differenza profonda tra linguaggio formale di programmazione e linguaggio naturale differenza profonda tra linguaggio formale di programmazione e linguaggio naturale

8 Un po di Linguistica Morfologia: parte della Grammatica che studia le forme linguistiche, le norme che regolano la struttura, la flessione, la composizione e la derivazione delle parole Morfologia: parte della Grammatica che studia le forme linguistiche, le norme che regolano la struttura, la flessione, la composizione e la derivazione delle parole Sintassi: studia l'insieme delle relazioni grammaticali tra le parole che costituiscono una frase o, in generale, un'espressione linguistica di più elementi Sintassi: studia l'insieme delle relazioni grammaticali tra le parole che costituiscono una frase o, in generale, un'espressione linguistica di più elementi Semantica: studia il linguaggio dal punto di vista del significato Semantica: studia il linguaggio dal punto di vista del significato Pragmatica: studia il linguaggio in rapporto alluso che ne fa il parlante Esempio: Sai che ore sono? Pragmatica: studia il linguaggio in rapporto alluso che ne fa il parlante Esempio: Sai che ore sono?

9 Trasformazione dellinput scritto e orale in una rappresentazione macchina interna

10 Analisi lessicale Nome: DELIMITATORE DI FRASE Nome: DELIMITATORE DI FRASE Compito: suddividere un testo in singole frasi Compito: suddividere un testo in singole frasi Osservazioni: non sempre i segni dinterpunzione indicano la fine di una frase Esempio: Geom. Rossi Osservazioni: non sempre i segni dinterpunzione indicano la fine di una frase Esempio: Geom. Rossi Nome: TOKENIZER Nome: TOKENIZER Compito: segmentare un flusso di caratteri in unità minime lessicali significative (=parole) Compito: segmentare un flusso di caratteri in unità minime lessicali significative (=parole) Osservazioni: una parola non può essere sempre vista come la sequenza di caratteri fra due spazi bianchi Esempio: Città del Vaticano Osservazioni: una parola non può essere sempre vista come la sequenza di caratteri fra due spazi bianchi Esempio: Città del Vaticano

11 Analisi grammaticale Nome: STEMMER Nome: STEMMER Compito: ridurre la forma flessa di una parola al suo lemma (=parola scelta per convenzione per rappresentare tutte le forme di una flessione) Esempio: riduzione di dormirò a dormire Compito: ridurre la forma flessa di una parola al suo lemma (=parola scelta per convenzione per rappresentare tutte le forme di una flessione) Esempio: riduzione di dormirò a dormire Osservazioni: spesso vengono usati dei cosiddetti stemmer euristici che eliminano gli elementi lessicali di superficie (prefissi e suffissi) al fine di scoprire il tema della parola (=parte della parola composta di radice del tema più vocale tematica, a esclusione dei suffissi) Esempio: riduzione di donazione a dona Osservazioni: spesso vengono usati dei cosiddetti stemmer euristici che eliminano gli elementi lessicali di superficie (prefissi e suffissi) al fine di scoprire il tema della parola (=parte della parola composta di radice del tema più vocale tematica, a esclusione dei suffissi) Esempio: riduzione di donazione a dona

12 Analisi grammaticale Nome: PART OF SPEECH TAGGER Nome: PART OF SPEECH TAGGER Compito: etichettare ogni parola con la corretta parte del discorso Compito: etichettare ogni parola con la corretta parte del discorso Osservazioni: frequenti problemi di ambiguità Esempio: Visiting aunts can be a nuisance. Visiting deve essere etichettato come verbo o come aggettivo? Risoluzione dellambiguità con regole sintattiche o facendo riferimento ad un corpus (=collezione di testi) taggato manualmente Osservazioni: frequenti problemi di ambiguità Esempio: Visiting aunts can be a nuisance. Visiting deve essere etichettato come verbo o come aggettivo? Risoluzione dellambiguità con regole sintattiche o facendo riferimento ad un corpus (=collezione di testi) taggato manualmente

13 Analisi sintattica Nome: PARSER Nome: PARSER Compito: costruire la struttura sintattica di una frase per verificarne la correttezza; indicare quali combinazioni di parti del discorso generano strutture sintatticamente corrette Compito: costruire la struttura sintattica di una frase per verificarne la correttezza; indicare quali combinazioni di parti del discorso generano strutture sintatticamente corrette Colorless green ideas sleep furiously. usata nel 1957 dal linguista statunitense Noam Chomsky, fondatore della grammatica generativo-trasformazionale usata nel 1957 dal linguista statunitense Noam Chomsky, fondatore della grammatica generativo-trasformazionale evidenzia la necessità di distinguere sintassi e semantica evidenzia la necessità di distinguere sintassi e semantica frase sintatticamente corretta, ma priva di significato frase sintatticamente corretta, ma priva di significato

14 Rappresentazioni di strutture sintattiche Struttura inscatolata Parse tree (S: (NP: (ADJ: Colorless) (ADJ: green) (N: ideas)) (VP: (V: sleep) (ADV: furiously))

15 SHRDLU programma sviluppato da T. Winograd alla fine degli anni 60 programma sviluppato da T. Winograd alla fine degli anni 60 il nome deriva dalla sequenza ETAOIN SHRDLU, la disposizione dei tasti su una macchina Linotype il nome deriva dalla sequenza ETAOIN SHRDLU, la disposizione dei tasti su una macchina Linotype lutente interagisce con un braccio robot allinterno del piccolo blocks world scrivendo dei comandi lutente interagisce con un braccio robot allinterno del piccolo blocks world scrivendo dei comandi la comprensione del linguaggio naturale da parte del programma risulta credibile grazie alla semplicità del mondo in cui opera la comprensione del linguaggio naturale da parte del programma risulta credibile grazie alla semplicità del mondo in cui opera

16 Il correttore ortografico Lutente inserisce una parola Vindiamo Il software verifica se essa è presente nel dizionario Il software non segnala errori Il software esegue lo stemming (Vind) Il software cerca nel dizionario le parole con distanza di Levenshtein minore e le suggerisce allutente Il software verifica se il tema è presente nel dizionario Si No Si No

17 Il correttore ortografico La distanza di Levenshtein misura il numero di caratteri che devo modificare per trasformare una stringa in unaltra. Dist. Levenshtein (CANE, PANE) = 1 Dist. Levenshtein (CANE, GATTO) = 4

18 Limiti e problematiche dei correttori ortografici Quante e quali parole devo inserire nel dizionario? In che ordine presentare i suggerimenti? Come riconoscere errori ortografici di parole singolarmente corrette? (Es. Im going too sleep.)

19 La semantica È la branca della linguistica che si occupa di studiare il significato delle frasi. Ad esempio Mangio una pesca e una pera La pesca del tonno è in crisi Si riferiscono a due ambiti semantici differenti. Come facciamo a far capire automaticamente il campo semantico ad un PC?

20 La classificazione semantica delle parole Ad ogni parola viene associato un certo numero di etichette che ne identificano la semantica. Es: Espresso {Colazione, Treno, Caffè, Pasto,... } Il software analizza le parole contenute in un documento e cerca larea semantica dappartenenza per intersezione. ColazioneTrasporti Treno Ritardo Cappuccino Espresso Brioches

21 Problemi legati a questo tipo di trattazione È sufficiente un approccio meramente statistico, che non tenga in considerazione la grammatica? (Es: Dopo una sana ed abbondante colazione ho preso lespresso delle 8. Semantica dellespresso: colazione) È possibile catalogare tutte le parole? Come possiamo trovare una classificazione universale? Ogni termine usato come etichetta è a sua volta classificabile?

22 Lutente chiede una pagina al server (www.repubblica.it) Il proxy la carica al suo interno DansGuardian la legge Se al suo interno ci sono troppe parole vietate, la pagina non viene mostrata Se non trova troppe parole sospette, la pagina viene trasmessa allutente Il filtro web: DansGuardian

23 Dimmi chi? e ti rispondo Servizio della Provincia Autonoma di Trento. Esegue lanalisi delle domande allo stesso modo di un chatterbots e fornisce informazioni sullanagrafe della pubblica amministrazione trentina (indirizzi, numeri di telefono, orari). Basta inviare un sms al con la domanda e il sistema invia la risposta. Es: DOMANDA: A che ora parte un Bus da Trento per Arco domani? RISPOSTA: PART Trento (autostaz.)Ore 6.23 ARR Arco (autostaz.) ore: 7.25 Tipo: Bus Extraurbano – INFO TEL

24 Il web semantico Attraverso dei formati standard lutente etichetta tutte le informazioni contenute nel suo sito manualmente e crea unONTOLOGIA, ovvero una serie di regole che leggano queste etichette e le possano tradurre in testo completo, secondo una gramamtica semplice e strutturata. E in questo modo possibile che da frasi come: Giorgio Napolitano, Presidente della Repubblica, vive a Roma Si estraggano informazioni in linguaggio naturale: Giorgio Napolitano è il Presidente della Repubblica Il presidente della repubblica vive a Roma

25 Talk to ELIZA asdjas maybe djskal djsakd Can't you be more positive? no. thfd dfladf dark and negative You are being a bit negative. dnaskd you djaksdj djaskfjhvd You're not really talking about me, are you? the color of dkas is green That is quite interesting. I want to be fdskafa again What if you never got to be fdskafa again? all the adhfakdf are dkfsfe What does that suggest to you?

26 Conclusioni ELIZA non capisce il linguaggio naturale ELIZA non capisce il linguaggio naturale anche i chatterbots di ultima generazione non sono in grado di capire il linguaggio naturale anche i chatterbots di ultima generazione non sono in grado di capire il linguaggio naturale non esistono per il momento applicazioni che riescano a trattare in modo completo un testo qualsiasi non esistono per il momento applicazioni che riescano a trattare in modo completo un testo qualsiasi sono stati fatti grandi passi avanti nel delineare i vari problemi che ci sono nel trattamento automatico del linguaggio naturale sono stati fatti grandi passi avanti nel delineare i vari problemi che ci sono nel trattamento automatico del linguaggio naturale

27 Conclusioni la ricerca nel settore del NLP diventa sempre più importante la ricerca nel settore del NLP diventa sempre più importante – traduzione automatica di testi di vario genere – riassunto di articoli e altri testi – ricerca più veloce ed efficace di informazioni nel web sono stati finanziati grandi progetti sono stati finanziati grandi progetti We can only see a short distance ahead, but we can see plenty there that needs to be done." A. Turing We can only see a short distance ahead, but we can see plenty there that needs to be done." A. Turing

28 Riferimenti bibliografici Jackson P., I. Moulinier, Natural Language Processing for Online Applications, John Benjamins Publishing Company, Amsterdam/Philadelphia, 2002 Jackson P., I. Moulinier, Natural Language Processing for Online Applications, John Benjamins Publishing Company, Amsterdam/Philadelphia,


Scaricare ppt "DallIntelligenza Artificiale al Natural Language Processing Matteo Conci Clara Craffonara Martina Delladio Colorless green ideas sleep furiously. www.pinobruno.it."

Presentazioni simili


Annunci Google