Analisi Distribuzionale

Analisi Distribuzionale

Il Continuum dalle frasi semplici alle forme polirematiche
* ricapitolando Il Continuum dalle frasi semplici alle forme polirematiche Frasi distribuzionalmente libere: altri livelli di variabilità di co-occorrenza Frasi distribuzionalmente ristrette: limitati livelli di variabilità di co-occorrenza Frasi fisse: livelli di variabilità di co-occorrenza (pressappoco) nulli Proverbi: livelli di variabilità di co-occorrenza nulli Composizionalità Idiomaticità

Distribuzione di un elemento
* ricapitolando Distribuzione di un elemento La distribuzione di un elemento viene definita da Harris come la somma di tutti contesti di quell’elemento, dove il contesto di un elemento A è la disposizione effettiva dei suoi co-occorrenti. Attraverso la sostituzione di elementi lessicali all’interno delle frasi si verifica in che modo la frase reagisce a tali modifiche, in termini semantici e in relazione alle eventuali trasformazioni accettate. Harris, Z. S. (1970). Discourse analysis. In Papers in structural and transformational linguistics, pages 313–347.

Verosimiglianza di Occorrenza
* ricapitolando Verosimiglianza di Occorrenza Anche se i parlanti sono portati a pensare che gli elementi che compongono le frasi sono combinati tra loro in modo arbitrario, in realtà non fanno altro che scegliere alcuni membri all’interno delle classi che compaiono regolarmente insieme. La selezione dipende dalla probabilità che un elemento co-occorra con altri elementi che appartengono ad una classe piuttosto che ad un’altra. Ovviamente esiste una gradualità nell’accettabilità della combinazione di elementi nelle frasi, i quali co-occorrendo possono generare enunciati più o meno verosimili.

Frasi distribuzionalmente libere: Maria pensa alla (città + mela + sorella + felicità) Frasi distribuzionalmente ristrette: Maria mangia la (*città + mela + *sorella + *felicità) Frasi fisse: Maria è bianca come un (cadavere + fantasma + *topo + *sentimento) Proverbi: Chi nasce tondo non può morir (quadrato + *rombo + *cilindro + *triangolo) Composizionalità Idiomaticità

* ricapitolando * ricapitolando Verosimiglianza di Occorrenza Frasi distribuzionalmente libere: N0 pensa a N non ristretto Frasi distribuzionalmente ristrette: N0 mangia N ristretto Frasi fisse: N0 è bianca come C (costituente fisso) Proverbi: Chi nasce tondo non può morir quadrato Composizionalità Idiomaticità

Tratti lessico-semantici dei nomi
Nomi Comuni Nomi Propri Fonte: Chomsky. Aspects of the Theory of Syntax. Pag 83

Astratto Concreto Umano Animale Fonte: Chomsky. Aspects of the Theory of Syntax. Pag 83

Semantica a Tratti La classificazione dei nomi assolutamente NON vuole essere un tentativo di realizzazione di semantica a tatti. L’ipotesi della semantica a tratti è che i termini possano essere scomposti in unità minime di significato (figure). I tratti semantici costituirebbero condizioni necessarie e sufficienti per la definizione dei termini.

Semantica a Tratti La classificazione dei nomi assolutamente NON vuole essere un tentativo di realizzazione di semantica a tatti.

Semantica a Tratti La classificazione dei nomi assolutamente NON vuole essere un tentativo di realizzazione di semantica a tatti. PERO’ Il piano del Contenuto non si presta ad essere analizzato in figure. Perché le categorie semantiche si definiscono l’un l’altra senza un ordine gerarchico fisso.

Le proprietà in base alle quali vengono descritti i lemmi sono le seguenti: Trait, che specifica i tratti lessico-semantici dei nomi Type, che fornisce informazioni semantico-distribuzionali sui nomi

Il carattere “distribuzionale” della classificazione
Il nostro esperimento ha la finalità di correggere una delle principali problematiche che presentano i più noti lessici annotati semanticamente (i.e. WordNet, FrameNet, ecc…), i quali tendono a raggruppare insieme parole che sono correlate da un punto di vista semantico, ma che non hanno nulla a che vedere tra loro da un punto di vista sintattico o distribuzionale.

I predicati vengono definiti attraverso la natura semantica dei loro argomenti. Questa osservazione si fonda, empiricamente, sul fatto che non esiste alcun predicato che abbia due significati differenti con le stesse classi di argomenti. Per effettuare una classificazione distribuzionale, bisogna prevedere delle classi semantiche che definiscano gli argomenti appropriati per ciascuno di questi impieghi. Gross, G. (1994). Classes d'objets et description des verbes. Langages,

Per rendere conto dei differenti impieghi di un predicato, ci si serve essenzialmente di tratti come: concreto, astratto, umano, ecc... Questo strumento descrittivo è, tuttavia, troppo sommario. Gross, G. (1994). Classes d'objets et description des verbes. Langages,

Quattro livelli di precisione per descrivere gli argomenti: Predicati senza restrizioni selettive. E’ il caso, per esempio, dei verbi “parlare (di)” o di “pensare (a)” per ciò che concerne i loro oggetti. Le iperclassi: altri predicati, invece, selezionano tra i sostantivi di grandi classi semantiche. Sono ad esempio: umano, concreto inanimato, astratto, ecc.. Le classi di oggetti: alcuni predicati selezionano “un insieme di sostantivi, semanticamente omogenei, che determina una interruzione di interpretazione di un dato predicato, delimitandone un impiego specifico.”. Tali entità sono costruite su delle basi sintattiche e sono determinate dal significato dei predicati. Singleton: si tratta di predicati il cui spettro argomentale è ridotto ad una sola unità Gross, G. (1994). Classes d'objets et description des verbes. Langages,

Nel presente esperiemnto siamo interessati ai concetti di iperclassi (da qui in poi chiamate Trait) e classi di oggetti (da qui in poi chiamate Type). Lo scopo è quello di rendere informatizzabile il processo di sostituzione di predicati e classi di nomi (iperclassi o classi di oggetti a seconda del caso) all’interno delle frasi.

Trait, che specifica i tratti lessico-semantici dei nomi Type, che fornisce informazioni semantico-distribuzionali sui nomi Le iperclassi: altri predicati, invece, selezionano tra i sostantivi di grandi classi semantiche. Sono ad esempio: umano, concreto inanimato, astratto, ecc.. Le classi di oggetti: alcuni predicati selezionano “un insieme di sostantivi, semanticamente omogenei, che determina una interruzione di interpretazione di un dato predicato, delimitandone un impiego specifico”. Tali entità sono costruite su delle basi sintattiche e sono determinate dal significato dei predicati.

La sintassi delle classi di oggetti La definizione in esteso delle classi permette di generare tutte le frasi possibili che rientrano in uno stesso impiego. Ma è possibile anche partire da una classe di oggetti data ed esaminare l’insieme dei predicati che possono completare. Ad esempio, la classe degli Conc+Nbot (i.e. piante) non risulta appropriata solo per il verbo abbattere, ma anche per piantare, tagliare, rimondare, ecc. Se facessimo il censimento di tutti i predicati dove può figurare una classe di oggetti, la potremmo descrivere per intero.

Gli operatori appropriati Succede, certamente, che un solo predicato possa determinare da solo una classe di oggetti: è, per esempio, il caso di rimondare, per quella degli alberi. Ma nella maggior parte dei casi gli operatori risultano adeguati ad una specifica classe semplicemente per uno dei loro impieghi. Pertanto, la definizione sintattica di una classe può avvenire anche grazie all’aiuto di un raggruppamento di impieghi di predicati. Se il verbo portare può, in ciascuno dei suoi sensi, essere applicato a tutti i concreti, una combinazione di verbi come portare, indossare, togliere, infilare, stirare potrà delimitare solo nomi di indumenti.

Guidelines per l’annotazione dei nomi dell’italiano
Vengono categorizzate insieme parole che possono occorrere in posizioni analoghe nelle frasi in relazione a specifici predicati, con particolare riferimento a quei predicati che prevedono una selezione ristretta di uno o più argomenti. TASK: sottoclassificare i nomi dell’italiano, precedentemente annotati come astratti o concreti. Nomi Concreti entrate lessicali Nomi astratti entrate lessicali

Vengono categorizzate insieme parole che possono occorrere in posizioni analoghe nelle frasi in relazione a specifici predicati, con particolare riferimento a quei predicati che prevedono una selezione ristretta di uno o più argomenti. TASK: sottoclassificare i nomi dell’italiano, precedentemente annotati come astratti o concreti. I lemmi sono attribuiti ad una classe piuttosto che ad un’altra sulla base della relazione di sussunzione (X è un Y, is_a). Il tag dunque rappresenta l’iperonimo (o superordinate) dei membri che contrassegna.

Per la proprietà Trait, ogni lemma può essere descritto da uno o da più (max 3, basandosi sulla marca d’uso) etichette, dato che la presenza di uno di essi non esclude la possibilità di possederne altri. i.e. corallo è concreto (1 significato, +Conc), animale (2 significato, +Anl), astratto (3 significato, + Astr).

Per la proprietà Trait, ogni lemma può essere descritto da uno o da più (max 3, basandosi sulla marca d’uso) etichette, dato che la presenza di uno di essi non esclude la possibilità di possederne altri. i.e. corallo è concreto (1 significato, +Conc), animale (2 significato, +Anl), astratto (3 significato, + Astr). +Conc+Nmat

Per la proprietà Trait, ogni lemma può essere descritto da uno o da più (max 3, basandosi sulla marca d’uso) etichette, dato che la presenza di uno di essi non esclude la possibilità di possederne altri. i.e. corallo è concreto (1 significato, +Conc), animale (2 significato, +Anl), astratto (3 significato, + Astr). +Anl

Per la proprietà Trait, ogni lemma può essere descritto da uno o da più (max 3, basandosi sulla marca d’uso) etichette, dato che la presenza di uno di essi non esclude la possibilità di possederne altri. i.e. corallo è concreto (1 significato, +Conc), animale (2 significato, +Anl), astratto (3 significato, + Astr). +Astr+Ncolor

Ma cos’è la marca d’uso? Per ogni accezione del Dizionario online De Mauro è indicata la marca d’uso, scelta tra undici categorie: LE di uso solo letterario, RE regionale, DI dialettale, ES esotismo (forestierismo), BU di basso uso, OB obsoleto. FO fondamentale, AU di alto uso, AD di alta disponibilità CO comune, TS tecnico-specialistico (seguita dell’ambito di riferimento),

Ma cos’è la marca d’uso? FO, AU e AD rappresentano le parole che coprono circa il 98% dei discorsi. LE di uso solo letterario, RE regionale, DI dialettale, ES esotismo (forestierismo), BU di basso uso, OB obsoleto. FO fondamentale, AU di alto uso, AD di alta disponibilità CO comune, TS tecnico-specialistico (seguita dell’ambito di riferimento),

Ma cos’è la marca d’uso? Nell’esperimento, dovendo attribuire alle entrate max 3 tag, avranno la precedenza le marche d’uso FO, AU, AD, CO, TS. È comunque l’annotatore che, grazie alla sua competenza linguistica, saprà decidere quale uso preferire a quelli suggeriti dai dizionari. LE di uso solo letterario, RE regionale, DI dialettale, ES esotismo (forestierismo), BU di basso uso, OB obsoleto. FO fondamentale, AU di alto uso, AD di alta disponibilità CO comune, TS tecnico-specialistico (seguita dell’ambito di riferimento),

Ma cos’è la marca d’uso? Se proprio si ha la sensazione che, per un dato lemma, 3 possibili tag non siano sufficienti, si scrivano le ulteriori accezioni (sotto forma di tag) nella colonna dei commenti. LE di uso solo letterario, RE regionale, DI dialettale, ES esotismo (forestierismo), BU di basso uso, OB obsoleto. FO fondamentale, AU di alto uso, AD di alta disponibilità CO comune, TS tecnico-specialistico (seguita dell’ambito di riferimento),

Il Tagset utilizzato per la sottocategorizzazione del Trait è: TAG SET DESCRIZIONE ESEMPI 1 Astr Astratto Lacerazione, ingessatura, intarsiatura, invenzione 2 Anl Animali (vivi o morti che siano) Gru, lama, leoncino, maggiolino, abbacchio 3 AnlColl Animali (nomi collettivi) Bestiame, lucciolaio 4 Um Umani Guardaspalle, guru, interprete 5 UmColl Umani (nomi collettivi) Scuola, Industria, Istituto... 6 Conc Concreti Ago, sacco, gancio… 7 ConcColl Copncreti (nomi collettivi) Mucchio, pagliaio, piumaggio… * ****Coll Nomi colletivi Tag abbinato sempre agli altri Trait, Gruppo generico di persone, animali o cose

Il Tagset utilizzato per la sottocategorizzazione del Type dei nomi concreti (animati e non) è: TRAIT TAG TYPE DESCRIZIONE +Conc +Npc parti del corpo +Npcorg parti di organismo +Ntesti testi +Nindu indumenti +Ncos cosmetici +Ncibo cibo +Nliq liquido +NliqBev liquido bevibile +Nmon moneta +Nedi edilizia +Nloc locativi TRAIT TAG TYPE DESCRIZIONE +Conc +Nmat materia generico +Nbot botanica +Nfarm farmaci +Ndrugs droghe +Nchim elementi chimici +Ndisp dispositivi elettronici +Nvei veicoli +Narr arredamento +Nstr strumenti

Il Tagset da utilizzare per la sottocategorizzazione del Type dei nomi astratti è: TRAIT TYPE DESCRIZIONE ESEMPIO +Astr +Npsic sensazioni, emozioni, sentimenti, stati psicologici amore +Nqual nomi di qualità fedeltà, amorevolezza +Nproc processo sterzata +Astr+Conc processo e risultato del processo ingessatura +Nmed malattie cardiopatia +Ndata nomi data-durata pomeriggio, maggio, giorno, ora, momento +Nmus suoni, note musicali la, do, clang, clangore, chiasso +Nalfb lettere alfabetiche a, b, c, … +Nnum numeri mille, cento +Nling parole lessema +Nlingua lingue e toponimi barese, salernitano, napoletano +Ngioch giochi, sport e attività ludiche acchiapparella +Ndisc discipline, dottrine, movimenti geologia, matematica, +Nmis unità di misura metro, litro +Ncolor colori blu, rosso +Nsap sapori amaro, insipidità +X categoria residuale Non riesco ad utilizzare le classi a disposizione

*il nome da testare va inserito sempre alla destra del verbo come complemento e, per convenzione, MAI in posizione soggetto Guidelines per l’annotazione dei nomi dell’italiano I predicati appropriati da utilizzare per la sottocategorizzazione del Type dei nomi astratti sono I seguenti: Npsic Nqual Nproc Nmed Ndata Nmus Nlingua provare N mostrare N attuare N contrarre N trascorrere un N suonare N parlare N sentire N dimostrare N implementare N soffrire di N passare un N abitare nel N provare un senso di N valutare N compiere N ammalarsi di N durare N ascoltare N tradurre in N provare una sensazione di N manifestare N svolgere N guarire da N ricordare un N registrare N bestemmiare in N provare un sentimento di N ostentare N sviluppare N diagnosticare N aspettare un N riprodurre N - patire N ammirare N effettuare N vaccinare contro N cronometrare N intonare N esprimere N decantare N realizzare N contagiarsi con N decorrere da N fischiare N suscitare N definirsi N bloccare N aggravarsi di N intervallare N inacutire N percepire N qualificare come N acutizzarsi di N ritardare a N sonorizzare N risaltare per N avviare N recedere di N udire N arrecare N emergere per N recidivare di N sussurrare N riacuirsi di N

*il nome da testare va inserito sempre alla destra del verbo come complemento e, per convenzione, MAI in posizione soggetto Guidelines per l’annotazione dei nomi dell’italiano I predicati appropriati da utilizzare per la sottocategorizzazione del Type dei nomi astratti sono I seguenti: Nnum Nling Nsap Ngioch Ndisc Nmis Ncolor Nalfb contare N scrivere N assaporare N giocare a N studiare N misurare N dipingere di N - sottrarre N pronunciare N gustare N praticare N approfondire N convertire N (in N) colorare di N dividere per N derivare N assaggiare N barare a N insegnare N ridurre N (a N) moltiplicare per N disambiguare N disgustarsi con N battere a N seguire N macchiare di N etimologizzare N esaltare N perdere a N introdurre N tingere di N flettere N sfrenarsi a N teorizzare N tinteggiare di N lemmatizzare N sfidare a N sperimentare N sfumare N prefissare N suffissare N sillabare N

In generale fino a 3 etichette possono essere associate ad un solo lemma. Ciò, però, può avvenire solo e soltanto se fanno riferimento a più usi e più significati associati alla stessa entrata dizionariale. La regola generale da seguire nell’annotazione è di cercare di ridurre la complessità del dizionario, dunque bisogna evitare di aggiungere tag relativi a significati con bassa frequenza d’uso. In questo task gli annotatori non sono autorizzati a proporre nuovi tag rispetto a quelli che trovano in questo documento.

Il dizionario da consultare per il tagging dei nomi Astratti dell’italiano è «Il Nuovo De Mauro» online al sito: Qualora dono dovessero essere presenti i lemmi ricercati potete estendere la ricerca a «il Sabatini Coletti» online al sito:

Ogni annotatore, quando procede a svolgere il tsk d’annotazione dorvrà: Cercare OGNI lemma elencato nella scheda astratti_tutti sul dizionario indicato; Valutare l’appertenenza del lemma alle classi indicate nella scheda tagset; Testare SEMPRE la co-occorrenza di OGNI lemma con il gruppo di operatori appropriati per specifiche classi, indicati nella scheda operatori_appropriati; Attribuire i tag TYPE (ed eventuali altri TRAIT, oltre ad Astr) SEMPRE utilizzando il menu a tendina a disposizione in ogni casella; È possibile correggere il tag TRAIT Astr, qualora, in seguito alla consultazione del dizionario, ci si dovesse accorgere di errori nella precedente annotazione.

Ogni annotatore, quando procede a svolgere il tsk d’annotazione dorvrà: Cercare OGNI lemma elencato nella scheda astratti_tutti sul dizionario indicato; Valutare l’appertenenza del lemma alle classi indicate nella scheda tagset; Testare SEMPRE la co-occorrenza di OGNI lemma con il gruppo di operatori appropriati per specifiche classi, indicati nella scheda operatori_appropriati; Attribuire i tag TYPE (ed eventuali altri TRAIT, oltre ad Astr) utilizzando il menu a tendina a disposizione in ogni casella; È possibile correggere il tag TRAIT Astr, qualora, in seguito alla consultazione del dizionario, ci si dovesse accorgere di errori nella precedente annotazione. È necessario avere davanti una STAMPA dei due file durante l’annotazione

Valutazione dell’Esperimento
Per tutti gli studenti corsisti, 1000 entrate annotate accuratamente* vengono premiate con un bonus di un punto sul voto finale. Eventualmente, su (apprezzatissima) richiesta dello studente, è possibile continuare l’annotazione su altre 500 entrate (e così via), venendo premiato con 0,5 in più sul voto finale (per ogni gruppo di 500 nuovi lemmi annotati). Non si considera per la valutazione un numero inferiore a 1000 entrate. *I punti bonus saranno concessi solo se, dopo la correzione di un campione rappresentativo dei dati, si verificherà che l’annotazione è stata effettuata in modo accurato.

Orari di Ricevimento (su appuntamento)
Scadenze 22 maggio: annotazione dei 1000 nomi per 1 punto; OPPURE 15 maggio: annotazione dei primi 1000 nomi, in vista dell’ulteriore annotazione di N. nomi (ogni 500, 0,5 punti).

Orari di Ricevimento (su appuntamento)
Alessandro Maisto Serena Pelosi Lunedì Stanza degli Assegnisti 12:30 14:30 Daniela Trotta Venerdì Biblioteca Placanica 11:00 14:00

Analisi Distribuzionale

Presentazioni simili

Presentazione sul tema: "Analisi Distribuzionale"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Analisi Distribuzionale

Presentazioni simili

Presentazione sul tema: "Analisi Distribuzionale"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back