La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un Analizzatore Lessicale ?

Presentazioni simili


Presentazione sul tema: "Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un Analizzatore Lessicale ?"— Transcript della presentazione:

1 Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un Analizzatore Lessicale ?

2 Paolo Ferragina, Università di Pisa Codifica di un testo ASCII (1963) 8 bit per carattere (7+1) Sufficiente per linglese ma non italiano e tedesco. XML (W3C 1998, o SGML IBM 1986) Distinguiamo struttura – contenuto – visualizzazione Standard aperto e personalizzabile, ma well-formed o valido Indipendente dalla piattaforma, in quanto puramente testuale Paolo Ferragina Elena Pierazzo prova bla bla...

3 Paolo Ferragina, Università di Pisa XML: un nuovo e-alfabeto Progetto Gutemberg Liceo Galluppi Aprile 2003 Il progetto nasce Aprile ore 9: apertura lavori, Prof. A. Vitale ore 10:.... Programma.doc \320\317^Q\340\241\261^Z\341 SHAPE \* MERGEFORMAT ^T^H^A^U^M 26 Aprile^M ore... Programma.ps %!PS-Adobe-2.0 %Creator: dvips(k) 5.86 Copyright 1999 Radical Eye Software %Title: C:Progetto.doc %CreationDate: Tue Apr %Pages: 30 %PageOrder: Ascend %BoundingBox: /TeXDict 300 dict def TeXDict begin /N{def}def/B{bind def}N/S{exch}N /X{SN}B/A{dup}B/TR{translate}N/isls Contenuto Visualizzazione (fogli di stile) Tag Progetto Gutemberg Liceo Galluppi 26 Aprile Aprile 2003 Il progetto nasce Aprile Prof. A. Vitale Apertura Lavori Progetto Gutemberg Liceo Galluppi 26 Aprile Aprile 2003 Il progetto nasce Aprile Prof. A. Vitale Apertura Lavori Annotazione motore di ricerca universale e semantico File puramente testuale

4 Paolo Ferragina, Università di Pisa XML e Linguistica CIBIT: consentirà laccesso a tutti i testi della letteratura italiana in XML. Corpus Dantesco (Prof. Tavoni) Opere del Vasari (Cribecu, SNS) Giordano Bruno (Cribecu, SNS) Corte dei Conti (CNR, Pisa) Perché XML ? Nuovo alfabeto standard e indipendente dalla piattaforma per codificare le informazioni. Molti strumenti pubblici per elaborare questa codifica. Disaccoppiamento tra fase di annotazione e fase di sviluppo degli strumenti per lanalisi. I Letterati si preoccupano di fornire una annotazione corretta e completa. Gli Informatici si preoccupano di sviluppare strumenti potenti ed efficienti per lelaborazione. I Grafici si preoccupano di visualizzare il tutto in modo accattivante.

5 Figure from Baeza-Yates & Ribeiro-Neto Passi principali dellAnalizzatore

6 Paolo Ferragina, Università di Pisa Fase di analisi delle pagine (eterogenee) Varie difficoltà per la normalizzazione State-of-the-art, U.S.A. vs. USA, a.out 3/12/91, Mar. 12, 1991, 55 B.C., B-52, Coopers vs Cooper vs Coopers résumé vs resume Google: kids toys, kids toys, kids toy (anche singolare/plurale in italiano) Stemming: riduce le parole alle loro radici Dipende dal linguaggio (inglese: Porter) Errori: automate(s), automatic, automation automat for example compressed and compression are both accepted as equivalent to compress for exampl compres and compres are both accept as equival to compres

7 Paolo Ferragina, Università di Pisa Proprietà statistiche dei testi I token non sono distribuiti uniformemente nel testo Ma seguono la cosiddetta legge di Zipf Pochi elementi sono molto frequenti Un numero medio di essi ha frequenza media Moltissimi sono infrequenti Il numero di token distinti non cresce linearmente Ma secondo la legge di Heaps (|T| con ) Le parole interessanti hanno una caratterizzazione Sono quelle mediamente frequenti (Luhn)

8 Paolo Ferragina, Università di Pisa Un esempio di Curva di Zipf

9 Paolo Ferragina, Università di Pisa Il prodotto della frequenza (f) di un token e il suo rango (r) è approssimativamente constante Un modo alternativo di vedere la cosa: Il termine di rango 1 occorre C volte Il secondo termine più frequente occorre C/2 volte Il terzo termine occorre C/3 volte … La legge di Zipf, nel dettaglio f = c N / r r * f = c N f = c N / r Legge di base Legge generale

10 Paolo Ferragina, Università di Pisa Dove occorre la Legge di Zipf ? Distribuzione parole in una collezione testuale, indip. linguaggio Richista di pagine web Link in uscita e in ingresso a pagine Web Dimensione dei documenti sul Web

11 Paolo Ferragina, Università di Pisa Consequenze della Legge di Zipf Esistono pochi token molto frequenti che non fungono da buoni discriminatori. Le cosiddettestop words in IR Inglese: to, from, on, and, the,... Italiano: a, per, il, in, un,… Esistono anche moltissimi token che occorrono una volta sola nel testo e quindi sono poco utili per gli algoritmi (errore / corretto?). Inglese: Calpurnia Italiano: Precipitevolissimevolmente (o, paklo) Parole mediamente frequenti Parole discriminanti

12 Paolo Ferragina, Università di Pisa Frequenza vs. Potere discriminante (Luhn)

13 Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un Compressore ?

14 Paolo Ferragina, Università di Pisa Perché comprimere ? Obiettivo: Eliminazione della ridondanza nei testi Riduzione spazio 33% tecniche standard (gzip, winzip,...) 20% tecniche avanzate (bzip, ppm) Miglioramento delle prestazioni CPU registri L1 L2RAM Cache Pochi Mbs Alcuni nanosecs Poche words Pochi Gbs Decine di nanosecs Alcune words HD rete Pochi Tbs Molti Tbs Anche secs Pacchetti Pochi millisecs B = 32K

15 Paolo Ferragina, Università di Pisa Gzip (77-78, raggiunge il 30%) Elimina ridondanza copiando pezzi di testo già visti T = a b a a b b a b a a a a b a b a b a b b T = a b a a b b a b a a a.... Più è lungo il testo, più ripetizioni ci aspettiamo, più risparmio otteniamo

16 Paolo Ferragina, Università di Pisa Huffman (50, raggiunge il 60%) Elimina ridondanza assegnando codeword corte a simboli frequenti Codeword = sequenza di bit (a = 01, b = 10) [NO: a=0, b=01] f:5e:9c:12b:13d:16a:45 Symb:freq a = 1 b = 011 c = 010 d = 001 e = 0001 f = 0000 Compresso = Albero + codifica di T ASCII Assegna 8 bits a tutti i simboli indipendentemente dalla loro frequenza

17 Paolo Ferragina, Università di Pisa Huffword (raggiunge il 30%) I simboli sono i token: parole o separatori Lalbero è molto grande cane:5gatto:9. :12,:13il:16 spazio:45 Symb:freq spazio = 1, = 011. = 010 il = 001 gatto = 0001 cane = 0000 Compresso = Albero (grande) + codifica di T

18 Paolo Ferragina, Università di Pisa Tagged Huffword (supporta la ricerca) Dividiamo ogni parola di codice in gruppi di 7 bit Aggiungiamo in testa a ogni gruppo un bit di tag 0 per lultimo gruppo 1 per tutti gli altri gruppi Esempio: Sincronizzazione: Fine parola di codice = byte che inizia con 0 Decompressione: Elimino il bit di tag da ogni byte, e scopro la parola di codice guardando dallinizio la sequenza rimasta La ricerca sul compresso è possibile, = 011 cane = 0000 cuccia =


Scaricare ppt "Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un Analizzatore Lessicale ?"

Presentazioni simili


Annunci Google