TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di.

Slides:

Advertisements

Presentazioni simili

Introduzione al DTD Mario Arrigoni Neri.

Advertisements

Lezione 1 Primi passi in HtML SCRIVERE TESTI di Sergio Capone

© 2007 SEI-Società Editrice Internazionale, Apogeo Unità A1 Introduzione a Java.

Selezione - approfondimento

CODIFICA DELLE INFORMAZIONI

I File di testo in Pascal

Tecniche di compressione dei dati

Corso di laurea in INFORMATICA RETI di CALCOLATORI A.A. 2003/2004 Messaggi di errore e di controllo Alberto Polzonetti

WEB OF SCIENCE ISI Web of Knowledge

Microlingua e corpora Gianfranco Porcelli Venezia, 20 luglio 2009.

Luso dei corpora nellinsegnamento dellitaliano per scopi speciali Gianfranco Porcelli Venezia, 19 luglio 2010.

1 Casi di studio ISO 9660 FAT-12, FAT-16, FAT-32 NTFS.

Hash Tables Indirizzamento diretto Tabelle Hash Risoluzioni di collisioni Indirizzamento aperto.

Realizzazione del file system

Sistemi di supporto alle decisioni 2. Features space

Programmazione Procedurale in Linguaggio C++

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5

Sistemi operativi. Informatica 1 SCICO - a.a. 2010/11 2 Insieme di programmi per gestire le risorse del calcolatore – Risorse: memoria di massa, tastiera.

Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.

1 Il servizio di prestito e fornitura documenti ILL-SBN una visione di insieme caratteristiche della procedura illustrazione delle funzionalità

Appunti di inferenza per farmacisti

1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Rappresentazione dellinformazione su calcolatore Anno Accademico 2009/2010.

Il software QSR-NUD*IST Qualitative Solutions and Research, Non-Numerical Unstructured Data Indexing, Searching and Theorizing Laura Borghi, 08 Giugno.

Modello del sistema di posta Elettronica

Corso di Informatica per Giurisprudenza

Corso di Informatica Applicata - Lezione 3 - © 2005 Saverio De Vito Corso di Informatica Applicata Lezione 3 Università degli studi di Cassino Corso di.

IL FORMATO DEI FILE E IL FILETYPE (ESTENSIONE) Formato dei file 10 marzo 2012 Informatica prof. Giovanni Raho anno

Lezione 4: Costrutti Condizionali Prof. Raffaele Montella.

Laboratorio di Informatica

Istruzioni di selezione in Java Programmazione Corso di laurea in Informatica.

CAPITOLO 4 LINGUAGGIO JAVA: COSTRUTTI DI BASE. ALFABETO Java adotta la codifica standard Unicode della società Unicode, Inc. (ftp://ftp.unicode.org) definito.

informatica di base per le discipline umanistiche

Sistemi Operativi - Introduzione 1 Il sistema operativo UNIX Dettagli e comandi avanzati Niccolò Battezzati Politecnico di Torino Dip. Automatica e Informatica.

Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.

Strategie d’uso del computer nella didattica

1 Documenti XML validi La Document Type Definition Dichiarazione di elementi.

1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.

1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.

2a Lezione: Martedì 6 Febbraio – HTML Comandi base

Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.

Che cos’è un sistema di numerazione?

Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.

Software didattico in ambiente protetto

Sistemi di elaborazione dellinformazione Modulo 3 -Protocolli applicativi Unità didattica 3 -Protocolli di posta elettronica Ernesto Damiani Lezione 2.

Associazione per lo sviluppo delle tecnologie nella didattica

File e Funzioni Si possono distinguere tre tipi di file che vengono utilizzati in MATLAB: M-file: hanno estensione .m e in essi vengono memorizzati i.

LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2

I computer vengono utilizzati per automatizzare la soluzione di problemi di varia natura trattando le informazioni in entrata (DATI) eseguendo gli opportuni.

PHP - PHP: Hypertext Preprocessor. Introduzione PHP (acronimo ricorsivo per "PHP: Hypertext Preprocessor") è un linguaggio di scripting general-purpose.

Lezione 3 Struttura lessicale del linguaggio

Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.

Implementazione di dizionari Problema del dizionario dinamico Scegliere una struttura dati in cui memorizzare dei record con un campo key e alcuni altri.

INTERFACCE Schede elettroniche che permettono al calcolatore di comunicare con le periferiche, che possono essere progettate e costruite in modo molto.

I FILE I File sono l’ unità base di informazione nell’interazione tra utente e sistema operativo I File sono l’ unità base di informazione nell’interazione.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi Univariata.

Fondamenti di Markup Languages: Richiami di HTML © 2005 Stefano Clemente Stefano Clemente

Corso di Laurea in Scienze e Tecnologie Chimiche corso di Informatica Generale Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.

I set di caratteri Fabio Vitali. Fabio Vitali - Almaweb Introduzione Qui esaminiamo in breve: Il problema della codifica dei caratteri ASCII (7.

27 marzo 2003 Modulo di Comunicazione Mirko Tavosanis

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4

Allineamento di sequenze

Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva

Io ho voluto dimostrarlo attraverso una delle mie passioni:

1 Modalità di ricerca Per verificare se una rivista è accessibile in formato elettronico, dalla home page di una delle biblioteche dell’Ateneo pisano,

Elementi di statistica con R e i database Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 19 Aprile 2012 Lezione 4.

Elementi di statistica con R e i database Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 17 Aprile 2012 Lezione 3.

Transcript della presentazione:

TAPoR Text Analysis Portal for Research

Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di file testuali File di testo semplice (plain text) File HTML File XML Il progetto nasce come collaborazione tra 6 università

Le 6 università McMaster University University of Alberta Université de Montreal University of New Brunswick University of Toronto University of Victoria

Un problema spinoso Il formato dei file riconosciuti da un analizzatore testuale è vario e non standard Generalmente si tratta di file con estensione TXT (plain text) Tact legge formati MS-DOS, TAPoR formati US-ASCII, UNICODE.

Salvare il testo I valori ASCII standard sono quelli fra 0 e 127, cioè i valori ottenibili con 7 bit) L'ASCII standard è uguale fra le diverse lingue e le diverse macchine (mac, unix, win...) per i valori fra 32 e 127, rappresentando lettere dell'alfabeto inglese, numeri e alcuni caratteri speciali quelli fra 0 e 31 sono riservati ai diversi sistemi operativi.

Salvare il testo I bit vengono aumentati a 8 e si ebbe in tal modo il cosiddetto ASCII esteso, che nelle varie versioni internazionali ospitava tutti quei caratteri non presenti nell'ASCII a 7 bit Particolarmente usato è ISO-LATIN 1, che contiene i caratteri principali delle lingue occidentali e anglosassoni con alfabeti latini

Muoversi in Tapor Tre tipologie di testi analizzabili (TXT, HTML, XML) Diversi strumenti per le diverse tipologie Su file lunghi le operazioni possono richiedere molto tempo, dipendentemente dalla macchina e dalla connessione a internet

Analisi plain text: gli strumenti 1.List words (elencazione delle parole): elenca tutte le parole presenti nel testo, ordinandole in 4 modi (alfabetico diretto ed inverso, di frequenza, di ordine di comparsa) 2.Find text (ricerca del testo): è lo strumento di concordanza per cercare parole, frasi o righe di testo

BOX DI SELEZIONE PER LOPZIONE LIST WORDS

RISULTATO INTERROGAZIONE SULLE RIME DELLANGIOLIERI

ORDINAMENTO PER FREQUENZA

STRUMENTO FIND TEXT - CONCORDANZA

CONCORDANZA PER LA PAROLA AMORE

Analisi plain text: gli strumenti 3.Co-occurence (co-occorrenza): cerca le ricorrenze di due parole vicine tra loro, a distanza specificata 4.Collocation (collocazione): vengono restituite le parole che precedono e seguono immediatamente la parola data. Ordinamento alfabetico, per frequenza e per Z-score

STRUMENTO CO-OCCORENCE

CO-OCCORRENZA AMORE/CUORE

CO-OCCORRENZA AMORE/DOLORE

Analisi plain text: gli strumenti 5.Tokenize (divisione in token): divide il testo in parti, usando come separatore un token specificato (una parola, uno spazio, un elemento, ecc) 6.Fixed phrase (frase fissata): viene estratta la frase che contiene una parola data calcolata in base alla lunghezza del contesto voluta

Analisi plain text: gli strumenti 7.Date finder (estrattore di date): trova nel testo tutti i formati data possibili e li restituisce insieme al contesto 8.Summarizer 9.Comparator 10.Distribution 11.Speech Tagger

La distribuzione DISTRIBUZIONE FORMA GIUSTIZIA – LA PATENTE, L. PIRANDELLO

Alcuni indici di rilievo Token Type Hapax legomena Hapax dislegomena Deviazione standard Z-score Indice di Kurtosis Caratteristica di Herdann

Number of Types = 1325 Number of Tokens = 3018 Type/Token ratio = Token/Type ratio = Hapax Legomena = 932 Hapax Dislegomena = 193 Hapax Legomena/Dislegomena ratio = Hapax Legomena/Number of Types = Hapax Legomena/Number of Tokens = Hapax Legomena cubed/Types squared = Variance ( S.D. squared ) = Standard Deviation (S.D.) = Coefficient of skewness = Coefficient of kurtosis = Herdan's characteristic = Yule's characteristic = Carroll TTR (Types / Sqrt of 2 X Tokens) = Most Frequent word "e" occurred 150 times repeat rate (Tokens / frequency most frequent word) =

Le statistiche di base 1021= types 2632= tokens 708= hapax legomena 148= hapax dislegomena

Links htmlhttp://tapor.humanities.mcmaster.ca/home. html