Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.

Slides:



Advertisements
Presentazioni simili
VIA GIULIO RATTI, CREMONA – Tel. 0372/27524
Advertisements

Equazioni e calcoli chimici
1 Consorzio interuniversitario per le Applicazioni del Supercalcolo Per Università e Ricerca Stelline 2008 Sala Volta, venerdì 7 marzo 2008 Seminario:
IlTrovatore S.p.a. IlTrovatore RemoteSearch IlTrovatore mette a disposizione di portali Internet, piccole e medie imprese, tutto il suo know-how nel settore.
Introduzione ad XML Mario Arrigoni Neri.
DBMS (DataBase Management System)
PHP.
Moodle: corso base Terzo incontro
"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.
TESTO ARGOMENTATIVO PASSI SMONTAGGIO SCHEMA 2. RICONOSCIMENTO PARTI
Laboratorio di Applicazioni Informatiche II mod. A
Promozione presso le Camere di Commercio dei servizi ICT avanzati resi disponibili dalla banda larga Camera di Commercio di Parma Parma.
La Ricerca in Rete Danco Singer novembre 2002 novembre 2002 Master in Editoria Multimediale La Ricerca in Rete: strategie di navigazione.
Districarsi tra i nuovi mezzi di espressione Pescara, 10 novembre Cristina Mosca Modiv snc.
Concetti di base IR spiegati con l'esempio di Google.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Lavoro svolto da Veronica Mancin
Google Docs Versione italiana (Google Documenti)
Motori di ricerca e operatori
1 CSB di Economia Le nuove risorse per linformazione online settembre 2006 SFX cosa è e a cosa serve SFX è un software acquisito e implementato dallAteneo.
1 RISORSE DISPONIBILI PER GLI UTENTI B.A.U. Orientamento bibliografico – II modulo.
Banche dati in rete dateneo Cosa faremo: Primo giorno Introduzione alle principali banche dati umanistiche Secondo giorno Esercitazioni.
DBMS ( Database Management System)
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
Chinosi Michele – matr.: La seconda release di Virtuose basata su database XML La seconda release di Virtuose basata su.
Ivrea, 2 aprile 2010 Author: Domenico ing. Capano 1 Una buona modalità per fare Ricerca su Archivi in Rete Presentazione utile per svolgere bene le tesine.
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Lezione 12 Riccardo Sama' Copyright Riccardo Sama' Excel.
QUESTO TUTOR COSTITUISCE UNA BREVE GUIDA PER RENDERE PIU' FACILI, VELOCI ED EFFICACI LE VOSTRE RICERCHE BIBLIOGRAFICHE E LA CONSULTAZIONE DEL CATALOGO.
Comunità Montana dellAppennino Modena Est Portale Turistico Guida al Sistema di Amministrazione.
La Revisione dei documenti
CORSO AVANZATO INFORMATICA
Manutenzione dati. Estrazione e caricamento dati Dati Comunicazione Elenchi Clienti/Fornitori/1 Come visto precedentemente è possibile estrarre i dati.
STRUTTURA GENERALE DI UN ELABORATORE
Internet Ricerche nel web Gli indici sistematici (directory)
MD Consult raggruppa e gestisce le principali risorse elettroniche disponibili in ambito medico-clinico in un unico servizio online progettato per supportare.
INTERACTIVE PDF Develove S.r.l. Presentazione del sistema WEB di pubblicazione e di estrapolazione di contenuti da file PDF.
Registro Elettronico Riepilogo Valutazioni Scritte ed Orali;
Unità Didattica 3 Linguaggio C
Final Project Review byNight byNight March 15th,2012.
Word NOTE Realizzazione: Marta Nanni. Le parti di una nota Una nota è costituita da: indicatore di rimando (numero, simbolo o lettera), che si.
Internet Explorer I preferiti Stampa di pagine web Salvataggio di pagine web Copia di elementi di pagine web in altri applicativi.
Paper Based Prototipe Laboratorio di Basi di Dati 2 Università di Roma La Sapienza Tecnologie Informatiche Anno 2003/2004.
entra. Ricerca semplice inserire la parola click! Non occorre indicare la lingua !
Ex. 1 Synaptic Apriamo Synaptic. Ex. 1 Synaptic Installiamo DIA-gnome Selezioniamo il pacchetto e clicckiamo col tasto destro. Comparirà il menu contestuale.
Applicazione Web Informatica Abacus Informatica Classe VIA 2008/2009 N.Ceccon INF (01) Revisione 4.0 settembre 2008.
R ICERCA PER LEMMI All’interno del database OVI. HTTP :// GATTOWEB. OVI. CNR. IT /
CORSO INFORMATICA BASE
1 Il Buffer Cache Unix (Bach: the Design of the Unix Operating System (cap: 3)
1 Sharpdesk Descrizione generale Editoria ComposerRicerca Elaborazione immagini.
CORSO Di WEB DESIGN prof. Leonardo Moriello
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
DIGITAL RECIPE Progetto Realizzato da: Vitiello Pier Angelo Il progetto si trova all’indirizzo :
GLI ALGORITMI VISIBILE SUL BLOG INFORMATICA ANNO SCOLASTICO 2013 / 2014 GABRIELE SCARICA 2°T.
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
Titolo della sezione Eventuale sottotitolo Formazione Volontari SCN 2011 Centro Linguistico di Ateneo - Mediateca Motori di ricerca non solo Google.
Sistemi di elaborazione dell’informazione Modulo 3 -Protocolli applicativi Unità didattica 4 -Protocolli del Web Ernesto Damiani Lezione 1 – World Wide.
Informatica Lezione 8 Psicologia dello sviluppo e dell'educazione (laurea magistrale) Anno accademico:
CRUI 14 e 15 luglio 2014 Elisabetta Di Russo Dipartimento di Medicina Molecolare GLAD – Gruppo di Lavoro Ateneo Drupal Nuove linee guida in materia di.
Eprogram SIA V anno.
Laboratorio sul metodo di studio
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
1 Modalità di ricerca Per verificare se una rivista è accessibile in formato elettronico, dalla home page di una delle biblioteche dell’Ateneo pisano,
Dispositivi Mobili per Sentiment Analysis
1 “ Le Basi di Dati ”. 2 Parte 5: Tabelle –Creazione di una tabella –Indici e chiavi primarie –Relazioni e integrità referenziale Basi di Dati Struttura.
Corso borsisti DIAG 2015 Banche dati e risorse elettroniche bibliografiche.
Relazione tecnica di prevenzione incendi on line Procedura di compilazione guidata della relazione tecnica di prevenzione incendi, per le attività individuate.
I DONEITÀ DI C ONOSCENZE E C OMPETENZE I NFORMATICHE ( A – D ) Un database è un insieme di record (registrazioni) e di file (archivi) organizzati per uno.
Transcript della presentazione:

Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese

Il web contiene una grande quantità di dati linguistici Essi sono accessibili via motori di ricerca commerciali, i quali tuttavia presentano notevoli problemi. Oppure si può ricorrere al crawling, processo che consente di selezionare e annotare i testi significativi. Essi verranno poi caricati in un software per l'interrogazione linguistica.

Lo scopo del crawling Creare una risorsa bilanciata, contenente numerosi tipi di testo che corrispondono all'insieme presente nei corpora linguistici tradizionali. In aggiunta si avranno testi tratti dal Web. Questa operazione è stata fatta per il tedesco e l'italiano, i cui web corpora sono accessibili con Sketch Engine.

Come avviene il crawling – 1 Si inizia con interrogare Google attraverso il suo API service cercando coppie casuali di parole.API service È stato notato infatti che una parola sola porta a pagine inadeguate (definizioni della parola nei vari dizionari, pagine di compagnie il cui nome contiene la parola). Più di due parole invece portano a liste e non a testi.

API: Application Programming Interface, ossia un'interfaccia data da un software per attuare interazioni con altri software

Come avviene il crawling - 2 Si nota anche che coppie tratte da risorse scritte tradizionali (quotidiani, saggi) portano a pagine della sfera pubblica (quotidiani, siti accademici o governativi). Parole del vocabolario comune portano a pagine personali (blog, bollettini). Entrambi i tipi di pagine interessano il linguista, che quindi le inserirà nella sua ricerca.

Come avviene il crawling - 3 Il processo di analisi vero e proprio avviene grazie a Heritrix crawler. Ad ogni coppia di parole vengono associate un massimo di 10 pagine, il cui suffisso non deve indicare dati non-HTML (.pdf,.jpeg ecc.).Heritrix crawler Si ottiene così un primo archivio di dati, di dimensioni considerevoli.

Il filtering Attraverso un processo di filtering vengono selezionati documenti in base alla dimensione (tra 5KB e 200KB) e alla presenza di duplicati. Sono infatti escluse sia le copie sia gli originali poiché si tratta di solito di testi quasi del tutto privi di interesse linguistico.

Filtering: boilerplate stripping, function word e pornography filtering Il boilerplate stripping elimina quelle sezioni dei documenti che non contengono materiale linguistico (HTML markup, javascript..). Vengono selezionati testi con un'alta percentuale di function words (per il tedesco un minimo di 10 types e 30 tokens). Il pornography filtering esclude quei testi che hanno un'alta percentuale di parole utilizzate in pornografia. Questo unicamente perché presentano elementi linguisticamente problematici.

POS e lemmatizzazione Per questa operazione si usa TreeTagger. Il corpus per il tedesco così ottenuto contiene 2.13 miliardi di parole.TreeTagger Si effettua un'ultima pulitura, eliminando grazie alle annotazioni quelle parti di testo in cui il POS è inusuale. Va ricordato inoltre che TreeTagger non è allenato per testi provenienti dal Web, le sue prestazioni sono quindi piuttosto negative.

Indicizzazione, interfaccia user friendly e confronto Una buona indicizzazione e un'interfaccia user friendly sono fondamentali per la consultazione del corpus. Il confronto con un corpus preesistente permette di capire l'effettiva validità del Web corpus e notare le differenze tra l'uno e l'altro in termini di parole.

Conclusioni – 1 Questi passaggi hanno permesso di creare Web corpora molto grandi per il tedesco e l'italiano. Il filtering ha eliminato i problemi che presentava il Web come risorsa per la ricerca linguistica.

Conclusioni - 2 Il confronto con un newswire corpus ha dato buoni risultati in termini di bilanciamento. I Web corpora sono accessibili con strumenti per l'interrogazione che supportano ricerche linguistiche dettagliate.