La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2

Presentazioni simili


Presentazione sul tema: "LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2"— Transcript della presentazione:

1 LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2
Lezione 3: cap. 2 Ancora Python NLTK: operazioni su corpora

2 Per rinfrescarsi la memoria …
Lezione passata: Python: variabili, assegnamento, liste import nltk from nltk.book import * operazioni su testi: text1.concordance(‘whale’) operazioni su stringhe: s1.endswith(‘s’) controllo in Python

3 Python come un linguaggio ad oggetti
Anche se non si direbbe, in Python ogni dato ha un TIPO, come in Java o C++ Per esempio, l’istruzione x = [1,2,3] automaticamente assegna a x il tipo LISTA La notazione text1.concordance(‘whale’) significa: ‘applica il metodo concordance del tipo di oggetti a cui text1 appartiene (il tipo text in questo caso) a text1, passando la stringa ‘whale’ come argomenti Vantaggi: e’ possibile usare la stessa notazione per operazioni simili su oggetti diversi Per esempio, x[0] si puo’ applicare sia quando x e’ una lista che quando x e’ una stringa

4 Due tipi di dati importanti in linguistica computazionale
Testi (lezione passata) Corpora (questa lezione)

5 Cos’e’ un corpus? Una raccolta di documenti ANNOTATI o meno

6 Operazioni su corpora in NLTK
x.fileids() (ritorna la lista di tutti i files nel corpus) x.raw(fileids=[‘austen-sense.txt’]) x.words(fileids=[‘austen-emma.txt’])

7 Esempi: Gutenberg nltk.corpus.gutenberg.fileids()
emma=nltk.corpus.gutenberg.words(fileids=[‘austen-emma.txt’]) (p. 40)

8 Corpora in NLTK Non annotati: Annotati: Etc (vedi p. 46-47) Gutenberg
Brown (POS tags) Reuters (genere di documenti) Movie reviews (sentiment) Etc (vedi p )

9 Crearsi nuovi oggetti di tipo corpus
Usando le librerie nltk e’ possibile trasformare qualsiasi raccolta di testi in un oggetto ‘corpus’ dentro Python

10 Creare nuovi oggetti di tipo corpus
from nltk.corpus import PlaintextCorpusReader corpus_root=‘/Corpora/LiberLiber’ ll=PlaintextCorpusReader(corpus_root,’.*txt’) ll.fileids() ll.words(‘i_promes.txt’)

11 Ancora Python: riuso di codice
Caricare moduli da testi Funzioni


Scaricare ppt "LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2"

Presentazioni simili


Annunci Google