La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di.

Presentazioni simili


Presentazione sul tema: "TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di."— Transcript della presentazione:

1 TAPoR Text Analysis Portal for Research

2 Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di file testuali File di testo semplice (plain text) File HTML File XML Il progetto nasce come collaborazione tra 6 università

3 Le 6 università McMaster University University of Alberta Université de Montreal University of New Brunswick University of Toronto University of Victoria

4

5 Un problema spinoso Il formato dei file riconosciuti da un analizzatore testuale è vario e non standard Generalmente si tratta di file con estensione TXT (plain text) Tact legge formati MS-DOS, TAPoR formati US-ASCII, UNICODE.

6 Salvare il testo I valori ASCII standard sono quelli fra 0 e 127, cioè i valori ottenibili con 7 bit) L'ASCII standard è uguale fra le diverse lingue e le diverse macchine (mac, unix, win...) per i valori fra 32 e 127, rappresentando lettere dell'alfabeto inglese, numeri e alcuni caratteri speciali quelli fra 0 e 31 sono riservati ai diversi sistemi operativi.

7 Salvare il testo I bit vengono aumentati a 8 e si ebbe in tal modo il cosiddetto ASCII esteso, che nelle varie versioni internazionali ospitava tutti quei caratteri non presenti nell'ASCII a 7 bit Particolarmente usato è ISO-LATIN 1, che contiene i caratteri principali delle lingue occidentali e anglosassoni con alfabeti latini

8 Muoversi in Tapor Tre tipologie di testi analizzabili (TXT, HTML, XML) Diversi strumenti per le diverse tipologie Su file lunghi le operazioni possono richiedere molto tempo, dipendentemente dalla macchina e dalla connessione a internet

9 Analisi plain text: gli strumenti 1.List words (elencazione delle parole): elenca tutte le parole presenti nel testo, ordinandole in 4 modi (alfabetico diretto ed inverso, di frequenza, di ordine di comparsa) 2.Find text (ricerca del testo): è lo strumento di concordanza per cercare parole, frasi o righe di testo

10 BOX DI SELEZIONE PER LOPZIONE LIST WORDS

11 RISULTATO INTERROGAZIONE SULLE RIME DELLANGIOLIERI

12 ORDINAMENTO PER FREQUENZA

13 STRUMENTO FIND TEXT - CONCORDANZA

14 CONCORDANZA PER LA PAROLA AMORE

15 Analisi plain text: gli strumenti 3.Co-occurence (co-occorrenza): cerca le ricorrenze di due parole vicine tra loro, a distanza specificata 4.Collocation (collocazione): vengono restituite le parole che precedono e seguono immediatamente la parola data. Ordinamento alfabetico, per frequenza e per Z-score

16 STRUMENTO CO-OCCORENCE

17 CO-OCCORRENZA AMORE/CUORE

18 CO-OCCORRENZA AMORE/DOLORE

19 Analisi plain text: gli strumenti 5.Tokenize (divisione in token): divide il testo in parti, usando come separatore un token specificato (una parola, uno spazio, un elemento, ecc) 6.Fixed phrase (frase fissata): viene estratta la frase che contiene una parola data calcolata in base alla lunghezza del contesto voluta

20 Analisi plain text: gli strumenti 7.Date finder (estrattore di date): trova nel testo tutti i formati data possibili e li restituisce insieme al contesto 8.Summarizer 9.Comparator 10.Distribution 11.Speech Tagger

21 La distribuzione DISTRIBUZIONE FORMA GIUSTIZIA – LA PATENTE, L. PIRANDELLO

22 Alcuni indici di rilievo Token Type Hapax legomena Hapax dislegomena Deviazione standard Z-score Indice di Kurtosis Caratteristica di Herdann

23 Number of Types = 1325 Number of Tokens = 3018 Type/Token ratio = Token/Type ratio = Hapax Legomena = 932 Hapax Dislegomena = 193 Hapax Legomena/Dislegomena ratio = Hapax Legomena/Number of Types = Hapax Legomena/Number of Tokens = Hapax Legomena cubed/Types squared = Variance ( S.D. squared ) = Standard Deviation (S.D.) = Coefficient of skewness = Coefficient of kurtosis = Herdan's characteristic = Yule's characteristic = Carroll TTR (Types / Sqrt of 2 X Tokens) = Most Frequent word "e" occurred 150 times repeat rate (Tokens / frequency most frequent word) =

24 Le statistiche di base 1021= types 2632= tokens 708= hapax legomena 148= hapax dislegomena

25 Links htmlhttp://tapor.humanities.mcmaster.ca/home. html


Scaricare ppt "TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di."

Presentazioni simili


Annunci Google