TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di.

TAPoR Text Analysis Portal for Research

Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di file testuali File di testo semplice (plain text) File HTML File XML Il progetto nasce come collaborazione tra 6 università

Le 6 università McMaster University University of Alberta Université de Montreal University of New Brunswick University of Toronto University of Victoria

Un problema spinoso Il formato dei file riconosciuti da un analizzatore testuale è vario e non standard Generalmente si tratta di file con estensione TXT (plain text) Tact legge formati MS-DOS, TAPoR formati US-ASCII, UNICODE.

Salvare il testo I valori ASCII standard sono quelli fra 0 e 127, cioè i valori ottenibili con 7 bit) L'ASCII standard è uguale fra le diverse lingue e le diverse macchine (mac, unix, win...) per i valori fra 32 e 127, rappresentando lettere dell'alfabeto inglese, numeri e alcuni caratteri speciali quelli fra 0 e 31 sono riservati ai diversi sistemi operativi.

Salvare il testo I bit vengono aumentati a 8 e si ebbe in tal modo il cosiddetto ASCII esteso, che nelle varie versioni internazionali ospitava tutti quei caratteri non presenti nell'ASCII a 7 bit Particolarmente usato è ISO-LATIN 1, che contiene i caratteri principali delle lingue occidentali e anglosassoni con alfabeti latini

Muoversi in Tapor Tre tipologie di testi analizzabili (TXT, HTML, XML) Diversi strumenti per le diverse tipologie Su file lunghi le operazioni possono richiedere molto tempo, dipendentemente dalla macchina e dalla connessione a internet

Analisi plain text: gli strumenti 1.List words (elencazione delle parole): elenca tutte le parole presenti nel testo, ordinandole in 4 modi (alfabetico diretto ed inverso, di frequenza, di ordine di comparsa) 2.Find text (ricerca del testo): è lo strumento di concordanza per cercare parole, frasi o righe di testo

BOX DI SELEZIONE PER LOPZIONE LIST WORDS

RISULTATO INTERROGAZIONE SULLE RIME DELLANGIOLIERI

ORDINAMENTO PER FREQUENZA

STRUMENTO FIND TEXT - CONCORDANZA

CONCORDANZA PER LA PAROLA AMORE

Analisi plain text: gli strumenti 3.Co-occurence (co-occorrenza): cerca le ricorrenze di due parole vicine tra loro, a distanza specificata 4.Collocation (collocazione): vengono restituite le parole che precedono e seguono immediatamente la parola data. Ordinamento alfabetico, per frequenza e per Z-score

STRUMENTO CO-OCCORENCE

CO-OCCORRENZA AMORE/CUORE

CO-OCCORRENZA AMORE/DOLORE

Analisi plain text: gli strumenti 5.Tokenize (divisione in token): divide il testo in parti, usando come separatore un token specificato (una parola, uno spazio, un elemento, ecc) 6.Fixed phrase (frase fissata): viene estratta la frase che contiene una parola data calcolata in base alla lunghezza del contesto voluta

Analisi plain text: gli strumenti 7.Date finder (estrattore di date): trova nel testo tutti i formati data possibili e li restituisce insieme al contesto 8.Summarizer 9.Comparator 10.Distribution 11.Speech Tagger

La distribuzione DISTRIBUZIONE FORMA GIUSTIZIA – LA PATENTE, L. PIRANDELLO

Alcuni indici di rilievo Token Type Hapax legomena Hapax dislegomena Deviazione standard Z-score Indice di Kurtosis Caratteristica di Herdann

Number of Types = 1325 Number of Tokens = 3018 Type/Token ratio = 0.439 Token/Type ratio = 2.278 Hapax Legomena = 932 Hapax Dislegomena = 193 Hapax Legomena/Dislegomena ratio = 4.8290 Hapax Legomena/Number of Types = 0.7034 Hapax Legomena/Number of Tokens = 0.3088 Hapax Legomena cubed/Types squared = 461.1221 Variance ( S.D. squared ) = 39.6977 Standard Deviation (S.D.) = 6.3006 Coefficient of skewness = 14.4959 Coefficient of kurtosis = 278.5743 Herdan's characteristic = 0.0760 Yule's characteristic = 652.5240 Carroll TTR (Types / Sqrt of 2 X Tokens) = 17.0546 Most Frequent word "e" occurred 150 times repeat rate (Tokens / frequency most frequent word) = 20.1200

Le statistiche di base 1021= types 2632= tokens 708= hapax legomena 148= hapax dislegomena

Links http://tapor.humanities.mcmaster.ca/home. htmlhttp://tapor.humanities.mcmaster.ca/home. html http://taporware.mcmaster.ca

TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di.

Presentazioni simili

Presentazione sul tema: "TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di.

Presentazioni simili

Presentazione sul tema: "TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back