LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2

Slides:



Advertisements
Presentazioni simili
Trieste, 26 novembre © 2005 – Renato Lukač Using OSS in Slovenian High Schools doc. dr. Renato Lukač LinuxDay Trieste.
Advertisements

Prof. Raimondo Schettini
INFORMATICA UMANISTICA MODULI B, C E D
3 ottobre 2000Consiglio Nazionale delle Ricerche Progetto Biblio MIME 1 Consiglio Nazionale delle Ricerche Area di Ricerca di Bologna Istituto per le Applicazioni.
Shell: variabili di sistema PATH HOME USER PWD SHELL HOSTNAME HOSTTYPE Per visualizzare il valore di tutte le variabili dambiente si usa il comando set.
INFORMATICA UMANISTICA MODULI B, C E D Massimo Poesio (B, D) Marco Baroni (Lab D) Roberto Zamparelli (C)
JavaScript 2. JavaScript nelle pagine web. HTML e XHTML Gli script JavaScript sono utilizzabili sia in pagine HTML che XHTML XHTML impone che il codice.
Marco Barisione I moduli Python.
Moodle: corso base Terzo incontro
Linguaggi di Programmazione e compilatori
BIBLIOTECAScuola Superiore Sant'Anna LA RICERCA INTEGRATA DELLE RISORSE ELETTRONICHE : metasearch e link resolver CONCETTI E STRUMENTI A cura di Maria.
VERSO UN CURRICOLO PLURILINGUE, il “P. E. L
Università degli studi di Modena e Reggio Emilia
REST Il paradigma REST è basato su un protocollo di comunicazione stateless, client-server, chacheable e scalabile, tipicamente HTTP (ma non necessariamente,
Bioinformatica Prof. Mauro Fasano
WWW Link in XML Fabio Vitali. WWW Fabio Vitali2 Introduzione Qui esaminiamo: u XLink.
TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di.
1 Basi di dati e Web Prof. Stefano Paraboschi Prof. Barbara Pernici.
Risore sul web (JavaScript) tm
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Lab 5 – Info B Marco D. Santambrogio – Riccardo Cattaneo –
TECNOLOGIE PER DOCUMENTI DIGITALI
Leggi di potenza e di Zipf
IL FORMATO DEI FILE E IL FILETYPE (ESTENSIONE) Formato dei file 10 marzo 2012 Informatica prof. Giovanni Raho anno
IL FORMATO DEI FILE CORREZIONE E PROTEZIONE Formato dei file 1 Informatica prof. Giovanni Raho anno 2010.
CORSO DI INFORMATICA LAUREA TRIENNALE-COMUNICAZIONE & DAMS
INFORMATICA UMANISTICA B
ANNUNCI Modulo B: RICEVIMENTO DOMANI: 17-19
INFORMATICA UMANISTICA B
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Introduzione al linguaggio R
CAPITOLO 1 JAVA: UN TUFFO NEL LINGUAGGIO E NELL'AMBIENTE.
PROGETTO GENERAZIONE WEB digital learning
APPLICAZIONI WEB In questo corso impareremo a scrivere un'applicazione web (WA) Marco Barbato - Corso di Applicazioni Web – A.A
PROGETTO SCACCHI Programma, sviluppato in Java che permette di effettuare partite a scacchi tra due giocatori sulla stessa macchina e anche tra computer.
OpenAIRE: aggiornamenti sul progetto. OpenAIRE – alcuni dati OpenAIRE = Open Access Infrastructure for Research in Europe Programma: FP7 – Research Infrastructures.
Steganografia Un esempio pratico. Il formato TAR Possiamo pensare ad un archivio TAR come ad un contenitore di file. Per ogni file nellarchivio viene.
INFN-GRID WP1 11 gennaio 2001 GridFTP: stato dellarte Luciano Gaido 1 Progetto INFN-GRID GridFTP: stato dellarte Riunione WP1 (GLOBUS) Cnaf, 11 gennaio.
la fisica e` open access
VII EBRCN GM, Berlin, 26-28/09/20041 EBRCN Site: current status Béatrice Dutertre Questa presentazione può essere utilizzata come traccia per una discussione.
Modulo 7 – reti informatiche u.d. 1 (syllabus – )
File ad accesso casuale o random
Cos’è Internet Una rete globale di reti basata sul protocollo TCP/IP.
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
Cos’è l’ECDL ? La European Computer Driving Licence (ECDL) è un certificato, riconosciuto a livello internazionale, attestante che chi lo possiede ha l'insieme.
LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2
LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2
EDU Linux Rotaract Club Lugano-Ceresio Rocco Talleri Stefano Falconi RT05.
HTML I Form in HTML5.
Lezione 8.
Vannucci Roberto (5BM), De Nardin Axel (5AM)
Corso di Algoritmi e Strutture Dati con Laboratorio A.A. 2014/15 Espressioni regolari (cenni)
Automazione Open Source Tecniche e strategie di azione per i prossimi mesi.
Gli OPAC La biblioteca nella società conoscitiva Bagnacavallo, 24 maggio 2001 (Giovanni Bergamin)
WWW Link in XML Fabio Vitali. WWW Fabio Vitali2 Introduzione Qui esaminiamo: u XLink.
Realizzazione Sito Web
The Information School of the University of Washington University of Washington1 Introduzione INFO/CSE 100, Spring 2005.
TEORIE E TECNICHE DEL RICONOSCIMENTO
Corso Operatore Office Via Rosario Riolo, n° 60 Corsista: Pietro Manfré Copyright BY Pietro Manfré and Co Ce.Fo.p. Effettua un click del mouse.
Carluccio Antonio Carluccio Alessandra Caricola Giovanni Vizzino Anna Università degli Studi di Bari.
Ingegneria del software Modulo 3 -Tecniche di implementazione Unità didattica 1 -Ingegneria dei componenti Ernesto Damiani Università degli Studi di Milano.
TEORIE E TECNICHE DEL RICONOSCIMENTO
Paolo Monella Edizioni critiche digitali: problemi ed esemplificazioni Seminario "Informatica e studi filologici e linguistici" Dottorato di ricerca in.
TEORIE E TECNICHE DEL RICONOSCIMENTO Python: Debugging, 2: Understanding Python better.
PHP.  HTML (Hyper Text Markup Language)  CSS (Cascading Style Sheets)  Javascript (linguaggio di programmazione client)  PHP ( Hypertext Preprocessor.
With the participation of and supported by I Contratti di fiume per la buona governance di acqua e territorio Massimo Bastiani Coordinatore del Tavolo.
TeNG Linguaggio per la generazione di English Test Donato Cataldo Università di Bologna, facoltà di ingegneria Linguaggi e Modelli Computazionali '09/'10.

Creare un ebook con Youblisher.
המים בגוף האדם. מגישות:קרישטל אירית אנגיל עירית.
Accesso al corpus it. / ing. parola cercata sintagmi preposizioni.
Transcript della presentazione:

LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2 Lezione 4: Capitolo 3, parte prima (Trattamento di testi)

Operazioni da eseguire ogni volta >>> from __future__ import division >>> import nltk, re, pprint

Accesso a web via URL >>> from urllib import urlopen >>> raw = urlopen(url).read() >>> type(raw) <type 'str'> >>> len(raw) 1176831 >>> raw[:75] 'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n'

Tokenizzazione >>> tokens = nltk.word_tokenize(raw) >>> type(tokens) <type 'list'> >>> len(tokens) 255809 >>> tokens[:10] ['The', 'Project', 'Gutenberg', 'EBook', 'of', 'Crime', 'and', 'Punishment', ',', 'by']

Aprire documenti locali >>> import os >>> os.listdir('.') >>> f = open('document.txt')

Tipi di documenti HTML (p.81) PDF (p. 85)

Operazioni su stringhe

Espressioni regolari import re re.search()

Normalizzazione e tokenizzazione usando espressioni regolari

Unicode