LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2

LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2
Lezione 4: Capitolo 3, parte prima (Trattamento di testi)

Operazioni da eseguire ogni volta
>>> from __future__ import division >>> import nltk, re, pprint

Accesso a web via URL >>> from urllib import urlopen
>>> raw = urlopen(url).read() >>> type(raw) <type 'str'> >>> len(raw) >>> raw[:75] 'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n'

Tokenizzazione >>> tokens = nltk.word_tokenize(raw)
>>> type(tokens) <type 'list'> >>> len(tokens) >>> tokens[:10] ['The', 'Project', 'Gutenberg', 'EBook', 'of', 'Crime', 'and', 'Punishment', ',', 'by']

Aprire documenti locali
>>> import os >>> os.listdir('.') >>> f = open('document.txt')

Tipi di documenti HTML (p.81) PDF (p. 85)

Operazioni su stringhe

Espressioni regolari import re re.search()

Normalizzazione e tokenizzazione usando espressioni regolari

Unicode

LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2

Presentazioni simili

Presentazione sul tema: "LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2

Presentazioni simili

Presentazione sul tema: "LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back