BootCaT: Bootstrapping Corpora and Terminology
Ricapitolando … Costruzione di corpora: manuale semiautomatica BootCaT (http://bootcat.sslmit.unibo.it/)
Creazione semiautomatica Il metodo BootCaT permette di costruire corpora specialistici utilizzando una breve lista di termini (seeds) come punto di partenza Utilizzando BootCaT è molto semplice costruire corpora di riferimento / paragonabili È incluso nello SketchEngine (a pagamento)
Procedura di base: seed e tuple Selezionare i seed iniziali Inserire un seed per riga I seed composti da più parole devono essere scritti sulla stessa riga Il numero minimo di seed da inserire è 5 I seed verranno “mescolati” per generare delle tuple (combinazioni dei diversi seed inseriti) Le tuple verranno utilizzate come input per i motori di ricerca
Le tuple È possibile selezionare il numero di tuple desiderato (il numero di combinazioni casuali è un numero”finito” e dipende dal numero di seed inseriti) È possibile selezionare la lunghezza delle tuple I valori tipici in questo caso sono: 2 se si vuole costruire un corpus generico; 3 se si vuole costruire un corpus specialistico È possibile deselezionare le tuple “sbagliate”
La ricerca BootCaT si serve di un motore di ricerca per effettuare la ricerca Attualmente i motori di ricerca utilizzabili sono Google, Yacy e Bing Per poter effettuare la ricerca tramite Bing è necessario creare un account gratuito su https://azure.microsoft.com/it-it/try/cognitive-services/?api=bing-web-search-api
Account key (Bing) Una volta creato l’account è possibile ottenere una account key, cioè una stringa alfanumerica che ci viene assegnata gratuitamente Seguire la procedura e successivamente copiare e incollare l’account key nell’apposito spazio
La ricerca (Bing e Yacy) BootCaT utilizzerà a questo punto le tuple per interrogare il motore di ricerca selezionato cercando pagine web che contengano quelle tuple e scaricando gli URL Più le tuple sono specifiche, migliori saranno i risultati della ricerca Nella schermata successiva possibile filtrare i risultati, escludendo siti che potrebbero non essere utili ai fini della ricerca
La ricerca (Google) Se si sceglie di utilizzare l’External Search di Google, BootCaT aprirà automaticamente le pagine di ricerca trovate all’interno del browser predefinito A quel punto sarà sufficiente salvare le pagine di ricerca nella cartella indicata e proseguire con la procedura guidata Anche in questo caso, nella schermata successiva possibile filtrare i risultati, escludendo siti che potrebbero non essere utili ai fini della ricerca
Costruire il corpus! Il corpus costruito verrà automaticamente salvato nella cartella BootCaT corpora (nei Documenti) Il corpus potrà essere utilizzato per estrarre nuovi seed (con AntConc, da confronto con un altro corpus) e per ripetere la procedura di creazione
Nuova versione di BootCaT con nuove funzionalità … Codifica UTF-8: possibilità di costruire corpora in lingue che non usano l’alfabeto latino (Russo, Giapponese, Arabo, Cinese, ecc.) Possibilità di modificare le tuple direttamente dalla procedura guidata Possibilità di passare direttamente alla fase di costruzione del corpus caricando una lista di URL in BootCaT (che provvederà alla ripulitura e allo scaricamento delle pagine)
Filtro linguistico: le pagine in lingue diverse da quella selezionata verranno eliminate Filtro lunghezza documenti: dopo averli scaricate e ripuliti, BootCaT può contare il numero di parole contenute nei singoli documenti ed eliminare documenti troppo lunghi o troppo corti Aggiunta dei pulsanti “Copy” e “Paste” nelle schermate di selezione dei seed e di inserimento dell’account key (taglia, copia e incolla sono sempre stati supportati, ma solo con combinazioni da tastiera)
Esercitazione: Utilizzare i seguenti seeds per costruire un corpus in italiano sui fiori: sepalo gineceo fusto petalo calice corolla stame ovario
Quali seeds si possono utilizzare per costruire (in un'altra lingua) un corpus paragonabile a quello costruito in precedenza?
Seeds in EN sepal gynaeceum shaft petal calyx corolla stamen ovary