Digressione: il linguaggio di query CQP Laboratorio di analisi di risorse linguistiche Laurea Specialistica in Linguistica Digressione: il linguaggio di query CQP
CQP Operatori booleani: & (and) | (or) ! (not) Variabili numeriche: ? (0 or 1) * (0 or more) + (1 or more) {n} (exactly n) {n,m} (n…m interval)
CQP Ricerca semplice: "parola"; Ricerca di una stringa: "parola1" "parola2" … "parolan"; Due stringhe con due ordini di parole diversi: "parola1" "parola2" … "parolan" | "parolan" … "parola2" "parola1"; Ricerche case-insensitive: "baffo" %c; Per ignorare accenti e diacritici: "elite" %d;
CQP Ricerca combinata parola + categoria: "parola" [pos="label"]; Ricerca di un lemma: [lem="parola"]; Wildcards: "parol.*"; ".*arola"; ".*arol.*"; Per specificare un insieme chiuso di alternative: "parol(a|e|aio|iere)"; Per ignorare una lettera o un segno: "pic-?nic"; Per ampliare il contesto: "baffo"; set Context 30 oppure "baffo"; set Context 5 words oppure "baffo"; set Context 2 s
CQP Per cercare segmenti di qualsiasi lunghezza contenuti tra una parola e un’altra: "parola1" []* "parola2"; Per cercare segmenti di lunghezza pari a una parola contenuti fra una parola e un'altra: "parola1" [] "parola2"; Per cercare tutte le occorrenze di un lemma in una data forma all'interno della stessa frase: [lemma = "volere"][]+ [pos = ".*inf.*"] within s; Attenzione alle etichette diverse in ciascun corpus (es. il Corpus Taurinense usa lemma mentre il corpus della Repubblica utilizza lem)!
CQP Per cercare segmenti di lunghezza prestabilita contenuti tra una parola e un’altra: "parola1" []* "parola2" within 10; Per cercare segmenti di lunghezza variabile contenuti fra una parola e un’altra all'interno della stessa frase: "parola1" [] "parola2" within s; Per cercare tutte le occorrenze di una parola seguita da una preposizione o da un pronome personale: "parola" [pos="IN" | pos="PP"];
CQP Per cercare una sequenza aggettivo + nome + congiunzione + nome: [pos="JJ.*"] [pos="N.*"] "and|or" [pos="N.*"]; Per cercare una sequenza nome + is/was + verbo che termina in -ed: [pos="N.*"] "is|was" [pos="V.*" & word=".*ed"]; Per cercare una sequenza catch/caught + un determinatore + un numero qualsiasi di aggettivi + un nome oppure una sequenza nome + was/were + caught: "catch|caught" [pos="DT"] [pos="JJ"]* [pos="N.*"] | [pos="N.*"] "was|were" "caught";
CQP Per cercare una sequenza look/bring + una sequenza di max 10 parole che non siano verbi + up/down: "look|bring" [pos != "VB.*"]{0,10} "up|down"; Per cercare le parole che cominciano con sott- e non siano né verbi né aggettivi: [word="sott.*" & !(pos="V.*" | pos="ADJ")];
CQP: un esempio concreto Corpus La Repubblica: Attributi strutturali – permettono di restringere il campo della ricerca per generi: article_id: a single id assigned to each article (not very interesting). - article_author: the author of the article. - article_gen: the genre of the article (two values: news and commento). - article_top: the topic of an article (chiesa, cronaca, cultura, economia, meteo, politica, scienze, scuola, società, sport, NOCAT). - article_year: the year of an article (1985-2000). Esempio: a:"opportunista" :: a.article_top="politica"