BootCaT: Bootstrapping Corpora and Terminology

Slides:



Advertisements
Presentazioni simili
Wikispaces, flipped rules in the classroom fiorluis[at]tin.it Luisanna Fiorini
Advertisements

A.s Mauro Sabella. Play Store e gestione delle applicazioni Il fulcro del sitema operativo Android è il Play Store, dal quale possiamo installare.
Indice 1.Cos'è Google DriveCos'è Google Drive 2.Crea e lavoraCrea e lavora 3.VisualizzareVisualizzare 4.Condividi come e con chi preferisciCondividi come.
H T M L Hyper Text Markup Language L' HTML è un linguaggio di markup usato per la creazione di documenti ipertestuali sotto forma di pagine web.
E-portal Mediaset Manuale Utenti. Dove collegarsi?
Programmare “per gioco” SCRATCH Lo programmerò. Programmerò solo per lei.
Utilizzare il browser Firefox, altrimenti le mappe immagini non funzionano.
Il Parallel Turin University Treebank
Introduzione al backend di Sharepoint_P3
Configurazione Router IR794- IG601
Documenti informatici nuove modalità operative
“Vivere insieme” – Lezione6
La APP di Italia Nostra per i Beni Culturali
“Vivere insieme” – Lezione6
“Vivere insieme” – Lezione4
Corso «Nozioni di Informatica» – riepilogo di alcuni concetti visti
I Collegamenti in WORD Guglielmo Grisolia.
MANUALE spazio web comitati tecnici per AMMINISTRATORI e membri CT
UTILIZZO ZTIMESHEET E WORKFLOW
Accedere su Google e aprire l’App Drive cliccando sul pulsante :::
Primo corso per operatore ALPE NILDE hot topics
VISUAL BASIC.
La rappresentazione delle informazioni
NegoziCS packing list fidelitycard ordini merceinsaldo www ® software
Applicazione web basata su web service e web socket
Termini CINAHL/MeSH su EBSCOhost
IRIS Antonio Falco C.d.D. 15 luglio2015
Visit Lombardy VADEMECUM PER GLI OPERATORI
Tutorial help.ebsco.com.
Le basi dati CINAHL Tutorial sulla ricerca semplice
Sostenere lo sviluppo, guidare la crescita.
Excel 1 - Introduzione.
Nuovo Portale Antidoti
FORMULE E FUNZIONI SU EXCEL
Login Una volta cliccato sul link: “Aggiornamento Database GoogleBase”
SAS® OnDemand for Academics SAS Studio
Iscrizioni OnLine Einschreibungen
Iscrizioni OnLine Einschreibungen
Iscrizioni OnLine Einschreibungen
ORDINI ADR e Carta Cliente per Scansioni
Istruzioni per gli amministratori
HELP WAS TM/TV: F.A.Q. – Frequently Asked Questions Ticket e-GO
Consultare un corpus con AntConc
Access.
Consultare un corpus con AntConc
Come utilizzare gli video ed il Rapporto contatti
Come personalizzare il sito Web online di Microsoft SharePoint
Procedura di gestione appuntamenti tramite web.
Modulo 4 – Ricerca di informazioni nel web
Recupero seconda parte del PIN
Introduzione alla nuova versione di PowerPoint
Introduzione alla nuova versione di PowerPoint
PO Flip Training Jabil P2P Implementation
Introduzione alla nuova versione di PowerPoint
Esercitazione sulle modalità
Ricerca avanzata su EBSCOhost
Ricerca semplice su EBSCOhost
WORD 28/02/2019 Informatica - WORD.
OLIMPYAWIN software utilizzato per gestire le gare sportive scolastiche in piena autonomia per varie discipline. modulo di iscrizioni on-line che permette.
Fogli di Calcolo Elettronici
Osservatorio Regionale Commercio Applicativo
Come gestire le nuove condizioni di accesso
Portale Acquisti Alperia
A-to-Z Consente di Localizzare e Accedere a tutte le risorse della biblioteca: riviste online riviste cartacee riviste nelle banche dati in full text riviste.
GUIDA ALL’UTILIZZO DELLE FUNZIONALITÀ DI PAGAMENTO
Docente: Sabato Bufano
Digitare qui i dettagli dell'evento
Ruolo: Redattore Corsi
Modello immagine social media
Full Text Finder, panoramica di Publication Finder
Transcript della presentazione:

BootCaT: Bootstrapping Corpora and Terminology

Ricapitolando … Costruzione di corpora: manuale semiautomatica BootCaT (http://bootcat.sslmit.unibo.it/)

Creazione semiautomatica Il metodo BootCaT permette di costruire corpora specialistici utilizzando una breve lista di termini (seeds) come punto di partenza Utilizzando BootCaT è molto semplice costruire corpora di riferimento / paragonabili È incluso nello SketchEngine (a pagamento)

Procedura di base: seed e tuple Selezionare i seed iniziali Inserire un seed per riga I seed composti da più parole devono essere scritti sulla stessa riga Il numero minimo di seed da inserire è 5 I seed verranno “mescolati” per generare delle tuple (combinazioni dei diversi seed inseriti) Le tuple verranno utilizzate come input per i motori di ricerca

Le tuple È possibile selezionare il numero di tuple desiderato (il numero di combinazioni casuali è un numero”finito” e dipende dal numero di seed inseriti) È possibile selezionare la lunghezza delle tuple I valori tipici in questo caso sono: 2 se si vuole costruire un corpus generico; 3 se si vuole costruire un corpus specialistico È possibile deselezionare le tuple “sbagliate”

La ricerca BootCaT si serve di un motore di ricerca per effettuare la ricerca Attualmente i motori di ricerca utilizzabili sono Google, Yacy e Bing Per poter effettuare la ricerca tramite Bing è necessario creare un account gratuito su https://azure.microsoft.com/it-it/try/cognitive-services/?api=bing-web-search-api

Account key (Bing) Una volta creato l’account è possibile ottenere una account key, cioè una stringa alfanumerica che ci viene assegnata gratuitamente Seguire la procedura e successivamente copiare e incollare l’account key nell’apposito spazio

La ricerca (Bing e Yacy) BootCaT utilizzerà a questo punto le tuple per interrogare il motore di ricerca selezionato cercando pagine web che contengano quelle tuple e scaricando gli URL Più le tuple sono specifiche, migliori saranno i risultati della ricerca Nella schermata successiva possibile filtrare i risultati, escludendo siti che potrebbero non essere utili ai fini della ricerca

La ricerca (Google) Se si sceglie di utilizzare l’External Search di Google, BootCaT aprirà automaticamente le pagine di ricerca trovate all’interno del browser predefinito A quel punto sarà sufficiente salvare le pagine di ricerca nella cartella indicata e proseguire con la procedura guidata Anche in questo caso, nella schermata successiva possibile filtrare i risultati, escludendo siti che potrebbero non essere utili ai fini della ricerca

Costruire il corpus! Il corpus costruito verrà automaticamente salvato nella cartella BootCaT corpora (nei Documenti) Il corpus potrà essere utilizzato per estrarre nuovi seed (con AntConc, da confronto con un altro corpus) e per ripetere la procedura di creazione

Nuova versione di BootCaT con nuove funzionalità … Codifica UTF-8: possibilità di costruire corpora in lingue che non usano l’alfabeto latino (Russo, Giapponese, Arabo, Cinese, ecc.) Possibilità di modificare le tuple direttamente dalla procedura guidata Possibilità di passare direttamente alla fase di costruzione del corpus caricando una lista di URL in BootCaT (che provvederà alla ripulitura e allo scaricamento delle pagine)

Filtro linguistico: le pagine in lingue diverse da quella selezionata verranno eliminate Filtro lunghezza documenti: dopo averli scaricate e ripuliti, BootCaT può contare il numero di parole contenute nei singoli documenti ed eliminare documenti troppo lunghi o troppo corti Aggiunta dei pulsanti “Copy” e “Paste” nelle schermate di selezione dei seed e di inserimento dell’account key (taglia, copia e incolla sono sempre stati supportati, ma solo con combinazioni da tastiera)

Esercitazione: Utilizzare i seguenti seeds per costruire un corpus in italiano sui fiori: sepalo gineceo fusto petalo calice corolla stame ovario

Quali seeds si possono utilizzare per costruire (in un'altra lingua) un corpus paragonabile a quello costruito in precedenza?

Seeds in EN sepal gynaeceum shaft petal calyx corolla stamen ovary