TAPoR Text Analysis Portal for Research
Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di file testuali File di testo semplice (plain text) File HTML File XML Il progetto nasce come collaborazione tra 6 università
Le 6 università McMaster University University of Alberta Université de Montreal University of New Brunswick University of Toronto University of Victoria
Un problema spinoso Il formato dei file riconosciuti da un analizzatore testuale è vario e non standard Generalmente si tratta di file con estensione TXT (plain text) Tact legge formati MS-DOS, TAPoR formati US-ASCII, UNICODE.
Salvare il testo I valori ASCII standard sono quelli fra 0 e 127, cioè i valori ottenibili con 7 bit) L'ASCII standard è uguale fra le diverse lingue e le diverse macchine (mac, unix, win...) per i valori fra 32 e 127, rappresentando lettere dell'alfabeto inglese, numeri e alcuni caratteri speciali quelli fra 0 e 31 sono riservati ai diversi sistemi operativi.
Salvare il testo I bit vengono aumentati a 8 e si ebbe in tal modo il cosiddetto ASCII esteso, che nelle varie versioni internazionali ospitava tutti quei caratteri non presenti nell'ASCII a 7 bit Particolarmente usato è ISO-LATIN 1, che contiene i caratteri principali delle lingue occidentali e anglosassoni con alfabeti latini
Muoversi in Tapor Tre tipologie di testi analizzabili (TXT, HTML, XML) Diversi strumenti per le diverse tipologie Su file lunghi le operazioni possono richiedere molto tempo, dipendentemente dalla macchina e dalla connessione a internet
Analisi plain text: gli strumenti 1.List words (elencazione delle parole): elenca tutte le parole presenti nel testo, ordinandole in 4 modi (alfabetico diretto ed inverso, di frequenza, di ordine di comparsa) 2.Find text (ricerca del testo): è lo strumento di concordanza per cercare parole, frasi o righe di testo
BOX DI SELEZIONE PER LOPZIONE LIST WORDS
RISULTATO INTERROGAZIONE SULLE RIME DELLANGIOLIERI
ORDINAMENTO PER FREQUENZA
STRUMENTO FIND TEXT - CONCORDANZA
CONCORDANZA PER LA PAROLA AMORE
Analisi plain text: gli strumenti 3.Co-occurence (co-occorrenza): cerca le ricorrenze di due parole vicine tra loro, a distanza specificata 4.Collocation (collocazione): vengono restituite le parole che precedono e seguono immediatamente la parola data. Ordinamento alfabetico, per frequenza e per Z-score
STRUMENTO CO-OCCORENCE
CO-OCCORRENZA AMORE/CUORE
CO-OCCORRENZA AMORE/DOLORE
Analisi plain text: gli strumenti 5.Tokenize (divisione in token): divide il testo in parti, usando come separatore un token specificato (una parola, uno spazio, un elemento, ecc) 6.Fixed phrase (frase fissata): viene estratta la frase che contiene una parola data calcolata in base alla lunghezza del contesto voluta
Analisi plain text: gli strumenti 7.Date finder (estrattore di date): trova nel testo tutti i formati data possibili e li restituisce insieme al contesto 8.Summarizer 9.Comparator 10.Distribution 11.Speech Tagger
La distribuzione DISTRIBUZIONE FORMA GIUSTIZIA – LA PATENTE, L. PIRANDELLO
Alcuni indici di rilievo Token Type Hapax legomena Hapax dislegomena Deviazione standard Z-score Indice di Kurtosis Caratteristica di Herdann
Number of Types = 1325 Number of Tokens = 3018 Type/Token ratio = Token/Type ratio = Hapax Legomena = 932 Hapax Dislegomena = 193 Hapax Legomena/Dislegomena ratio = Hapax Legomena/Number of Types = Hapax Legomena/Number of Tokens = Hapax Legomena cubed/Types squared = Variance ( S.D. squared ) = Standard Deviation (S.D.) = Coefficient of skewness = Coefficient of kurtosis = Herdan's characteristic = Yule's characteristic = Carroll TTR (Types / Sqrt of 2 X Tokens) = Most Frequent word "e" occurred 150 times repeat rate (Tokens / frequency most frequent word) =
Le statistiche di base 1021= types 2632= tokens 708= hapax legomena 148= hapax dislegomena
Links htmlhttp://tapor.humanities.mcmaster.ca/home. html