La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Digressione: il linguaggio di query CQP

Presentazioni simili


Presentazione sul tema: "Digressione: il linguaggio di query CQP"— Transcript della presentazione:

1 Digressione: il linguaggio di query CQP
Laboratorio di analisi di risorse linguistiche Laurea Specialistica in Linguistica Digressione: il linguaggio di query CQP

2 CQP Operatori booleani: & (and) | (or) ! (not) Variabili numeriche:
? (0 or 1) * (0 or more) + (1 or more) {n} (exactly n) {n,m} (n…m interval)

3 CQP Ricerca semplice: "parola";
Ricerca di una stringa: "parola1" "parola2" … "parolan"; Due stringhe con due ordini di parole diversi: "parola1" "parola2" … "parolan" | "parolan" … "parola2" "parola1"; Ricerche case-insensitive: "baffo" %c; Per ignorare accenti e diacritici: "elite" %d;

4 CQP Ricerca combinata parola + categoria: "parola" [pos="label"];
Ricerca di un lemma: [lem="parola"]; Wildcards: "parol.*"; ".*arola"; ".*arol.*"; Per specificare un insieme chiuso di alternative: "parol(a|e|aio|iere)"; Per ignorare una lettera o un segno: "pic-?nic"; Per ampliare il contesto: "baffo"; set Context 30 oppure "baffo"; set Context 5 words oppure "baffo"; set Context 2 s

5 CQP Per cercare segmenti di qualsiasi lunghezza contenuti tra una parola e un’altra: "parola1" []* "parola2"; Per cercare segmenti di lunghezza pari a una parola contenuti fra una parola e un'altra: "parola1" [] "parola2"; Per cercare tutte le occorrenze di un lemma in una data forma all'interno della stessa frase: [lemma = "volere"][]+ [pos = ".*inf.*"] within s; Attenzione alle etichette diverse in ciascun corpus (es. il Corpus Taurinense usa lemma mentre il corpus della Repubblica utilizza lem)!

6 CQP Per cercare segmenti di lunghezza prestabilita contenuti tra una parola e un’altra: "parola1" []* "parola2" within 10; Per cercare segmenti di lunghezza variabile contenuti fra una parola e un’altra all'interno della stessa frase: "parola1" [] "parola2" within s; Per cercare tutte le occorrenze di una parola seguita da una preposizione o da un pronome personale: "parola" [pos="IN" | pos="PP"];

7 CQP Per cercare una sequenza aggettivo + nome + congiunzione + nome: [pos="JJ.*"] [pos="N.*"] "and|or" [pos="N.*"]; Per cercare una sequenza nome + is/was + verbo che termina in -ed: [pos="N.*"] "is|was" [pos="V.*" & word=".*ed"]; Per cercare una sequenza catch/caught + un determinatore + un numero qualsiasi di aggettivi + un nome oppure una sequenza nome + was/were + caught: "catch|caught" [pos="DT"] [pos="JJ"]* [pos="N.*"] | [pos="N.*"] "was|were" "caught";

8 CQP Per cercare una sequenza look/bring + una sequenza di max 10 parole che non siano verbi + up/down: "look|bring" [pos != "VB.*"]{0,10} "up|down"; Per cercare le parole che cominciano con sott- e non siano né verbi né aggettivi: [word="sott.*" & !(pos="V.*" | pos="ADJ")];

9 CQP: un esempio concreto
Corpus La Repubblica: Attributi strutturali – permettono di restringere il campo della ricerca per generi: article_id: a single id assigned to each article (not very interesting). - article_author: the author of the article. - article_gen: the genre of the article (two values: news and commento). - article_top: the topic of an article (chiesa, cronaca, cultura, economia, meteo, politica, scienze, scuola, società, sport, NOCAT). - article_year: the year of an article ( ). Esempio: a:"opportunista" :: a.article_top="politica"


Scaricare ppt "Digressione: il linguaggio di query CQP"

Presentazioni simili


Annunci Google