La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

Presentazioni simili


Presentazione sul tema: "Lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università"— Transcript della presentazione:

1 lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia (continua…)

2 lezione 8 ottava lezione: la dinamica del testo vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia (continua…)

3 lezione 8 il vocabolario di un testo cresce quando introduciamo nel testo una parola mai usata prima intuitivamente la crescita di un vocabolario è rapida allinizio, in quanto ogni parola che usiamo ha la tendenza ad essere nuova (raramente ci sono ripetizioni nella stessa frase)rapida allinizio aumentando il numero di frasi, tuttavia, aumenta la probabilità di riusare parole già usate il ritmo di crescita del vocabolario di un testo tende quindi a diminuire allaumentare del numero di frasi...tende quindi a diminuire come cresce il vocabolario di un testo? (per saperne di più clicca sulle parole evidenziate in giallo!) (continua…)

4 lezione 8 come cresce il vocabolario di un testo (prime 1000 parole) coefficiente angolare intercetta coefficiente angolare (continua…)

5 lezione 8 (fine excursus) come cresce il vocabolario di un testo (prime 1000 parole, interpolazione a potenza) (fine excursus)

6 lezione 8 esistono classi di parole che è praticamente impossibile non ripetere allinterno di un testo anche molto breve queste classi sono formate dalle cosiddette parole grammaticali (articoli, preposizioni, ausiliari ecc.), che costituiscono limpalcatura morfosintattica di una frase queste classi sono, tipicamente, relativamente ristrette (contengono pochi elementi) e chiuse, cioè non sono soggette ad espandersi attraverso processi produttivi del lessico come la derivazione o la composizionederivazione composizione come cresce il vocabolario di un testo? (II) (continua…) (per saperne di più clicca sulle parole evidenziate in giallo!)

7 lezione 8 un altro fattore evidente che ritarda la crescita esponenziale del vocabolario allinterno dello stesso testo è la coerenza lessicale: la necessità, cioè,di ripetere concetti che sono legati al dominio o alla situazione specifica di cui parla il testo come cresce il vocabolario di un testo? (III) (continua…)

8 lezione 8 la frequenza media di una parola nel testo è data dal rapporto tra la lunghezza del testo e la grandezza del suo lessico: |T| / | V | la frequenza media (continua…)

9 lezione 8 allinizio ogni parola è usata in media poco più di una sola volta (freq media 1) non appena ripetiamo una stessa parola, tuttavia, la freq media cresce (freq media > 1) in generale freq media tende a crescere per due ragioni:freq media tende a crescere le parole grammaticali si ripetono, andando ad aggiungersi a T ma lasciando |V | invariato; il vocabolario a sua volta, come abbiamo visto, rallenta il suo ritmo di crescita col passare del testo la frequenza media (II) (per saperne di più clicca sulle parole evidenziate in giallo!) (continua…)

10 lezione 8 il ritmo di crescita di freq media tende a rallentare col passare del testotende a rallentare perché? la frequenza cresce linearmente al crescere del testo se il peso del lessico fosse costante, la crescita di freq media resterebbe lineare, ma avrebbe un ritmo inferiore (la retta che descrive questo andamento sarebbe più inclinata verso lasse delle x)freq media resterebbe lineare se il peso del lessico aumentasse in modo lineare, freq media sarebbe costante dal momento che il lessico cresce in modo non lineare (con una potenza di poco inferiore allunità) solo una crescita di frequenza non lineare (con esponente di poco inferiore a 2) potrebbe consentire a freq media di crescere linearmente come cresce freq media? (per saperne di più clicca sulle parole evidenziate in giallo!) (continua…)

11 lezione 8 frequenza media in Pinocchio (fine excursus)

12 lezione 8 curve di crescita del vocabolario (fine excursus)

13 lezione 8 crescita di freq media (fine excursus)

14 lezione 8 no! la lunghezza media di una parola tende a stabilizzarsi col passare del testo, cioè tende ad assumere un valore costante dopo una serie di oscillazioni casuali (legge dei grandi numeri) cresce tutto in questo modo? (continua…)

15 lezione 8 campionamento casuale … analogamente se invece di monitorare lo stesso testo nel tempo, se ne estraggono tanti campioni casuali, e se ne calcola per ciascuno lun media, il valore più volte attestato tenderà a riprodurre lun media di tutto il testo... (continua…)

16 lezione 8 campionamento casuale (II)... tanto meglio, quanto maggiore è la lunghezza dei campioni: (continua…)

17 lezione 8 campionamento casuale (III) per il teorema del limite centrale, i valori campionari di lunghezza media tenderanno a distribuirsi intorno al valore più attestato (valor medio) secondo una caratteristica forma a campana (curva gaussiana) e cioè con valori progressivamente decrescenti, disposti simmetricamente rispetto allasse della campana...(curva gaussiana) (per saperne di più clicca sulle parole evidenziate in giallo!) (continua…)

18 lezione 8 fine ottava lezione nona lezione la dinamica del testo (lezione 9)

19 lezione 8 la derivazione è uno di quei processi morfologici produttivi attraverso i quali il nostro vocabolario si arricchisce la derivazione consiste nel generare una parola nuova a partire da unaltra già esistente attraverso luso di un suffisso derivazionale ad esempio, dal sostantivo industria possiamo derivare laggettivo industriale, da questultimo il verbo industrializzare e da questultimo il sostantivo industrializzazione una parola derivata è una parola nuova, con una sua categoria grammaticale autonoma e un suo paradigma flessionale, non una forma flessa di una parola esistente derivazione (fine excursus)

20 lezione 8 la composizione è uno di quei processi morfologici produttivi attraverso i quali il nostro vocabolario si arricchisce la composizione, a differenza della derivazione, consiste nel generare una parola nuova giustapponendo due (o più) parole esistenti ad esempio, oggetto ricordo, conferenza stampa, nave scuola, sala riunioni ecc. composizione (fine excursus)

21 lezione 8 la distribuzione gaussiana 68.27% (fine excursus)


Scaricare ppt "Lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università"

Presentazioni simili


Annunci Google