>> raw = urlopen(url).read() >>> type(raw) >>> len(raw) >>> raw[:75] 'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n'">

La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2 Lezione 4: Capitolo 3, parte prima (Trattamento di testi) 1.

Presentazioni simili


Presentazione sul tema: "LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2 Lezione 4: Capitolo 3, parte prima (Trattamento di testi) 1."— Transcript della presentazione:

1 LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2 Lezione 4: Capitolo 3, parte prima (Trattamento di testi) 1

2 Operazioni da eseguire ogni volta >>> from __future__ import division >>> import nltk, re, pprint

3 Accesso a web via URL >>> from urllib import urlopen >>> url = "http://www.gutenberg.org/files/2554/2554.txt" >>> raw = urlopen(url).read() >>> type(raw) >>> len(raw) >>> raw[:75] 'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n'

4 Tokenizzazione >>> tokens = nltk.word_tokenize(raw) >>> type(tokens) >>> len(tokens) >>> tokens[:10] ['The', 'Project', 'Gutenberg', 'EBook', 'of', 'Crime', 'and', 'Punishment', ',', 'by']

5 Aprire documenti locali >>> import os >>> os.listdir('.') >>> f = open('document.txt')

6 Tipi di documenti HTML (p.81) PDF (p. 85)

7 Operazioni su stringhe P.87-92

8 Espressioni regolari import re re.search()

9 Normalizzazione e tokenizzazione usando espressioni regolari

10 Unicode


Scaricare ppt "LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2 Lezione 4: Capitolo 3, parte prima (Trattamento di testi) 1."

Presentazioni simili


Annunci Google