Analisi Distribuzionale

Slides:



Advertisements
Presentazioni simili
MA CHE TAVOLO DICI?!.
Advertisements

IO NON HO PAURA NEANCHE DEL TEOREMA DI PITAGORA....CHE POI NON ERA NEMMENO NEL PROGRAMMA!” “
I Polinomi Prof.ssa A.Comis.
L’indice d’uso nei corpora linguistici Salvatore De Masi
Basi di dati - Fondamenti
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
STRUTTURA E SVILUPPO UNIMC 2016
LA STATISTICA DESCRITTIVA
© 2007 SEI-Società Editrice Internazionale, Apogeo
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
ESAMI DI STATO 2016/17 Esame dei candidati DSA\BES
Linguistica computazionale, treebank e altre risorse
LA MAPPA CONCETTUALE Istruzioni per l’uso
<Nome del gruppo di lavoro>
Statistica Prima Parte I Dati.
L’operazionalizzazione
La svolta della filosofia
Insiemi e logica Insiemi e operazioni insiemistiche
IL SISTEMA DI VALUTAZIONE DELLA PERFORMANCE della PROVINCIA DI PAVIA
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
FONOLOGIA.
PAGINE GIALLE Roma, marzo 2006.
Linguistica e treebank
Un’università vuole raccogliere ed organizzare in un database
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Computer assisted translation e terminologia
Argomento: SISTEMA METRICO DECIMALE
SETTORI FUNZIONALI La strutturazione dell’ospedale per settori funzionali consente di accorpare per macro-funzioni tutte le aree sanitarie e non sanitarie.
misure di eterogeneità
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Iscrizioni OnLine Einschreibungen
Iscrizioni OnLine Einschreibungen
I codici comunicativi dell’educazione linguistica.
Il vocabolario Vocabolario e lemma
Algebra di Boole e sue applicazioni
Gli schemi concettuali
Progetto CLIL Grammar IC “G. Marconi” Castelfranco Emilia
Situazione problematica con le tessere della Matematòca algebrica
Introduzione al progetto Sigma A.s. 2017/18
RISULATATI DI SINTESI A.S
Statistica Scienza che studia i fenomeni collettivi.
Basi di dati - Fondamenti
Il Nuovo Esame Di Stato Conclusivo del I ciclo d’Istruzione
Consultare un corpus con AntConc
BootCaT: Bootstrapping Corpora and Terminology
PROCEDURA per la misura e la relativa stima
LA COMPETENZA LA FORMALIZZAZIONE DELLE COMPETENZE OMOGENEITA’ SINTATTICA Cecco Rita 08/02/2007.
La modellazione concettuale
la formazione delle classi e della categorie
Nome progetto scientifico
CAMBIAMENTI DI PRINCIPI CONTABILI OIC 26
Definizione di linguaggio di programmazione
La struttura del lessico della lingua italiana
Esercitazione sulle modalità
VUOI SAPERE COME FARE UN RIASSUNTO?
SCALE DI MISURA CARATTERI QUALITATIVI CARATTERI QUANTITATIVI
Excel 3 - le funzioni.
Gli archivi e le basi di dati
Corso di Algoritmi e Strutture Dati APPUNTI SUL LINGUAGGIO C
Strategie di progetto Si possono utilizzare le strategie tipiche dello sviluppo di un processo di ingegnerizzazione (es. ingegneria del software). Strategie.
Dalle prove INVALSI alla didattica
Figurine Un modello per consentire agli studenti di completare figurine digitali su persone o luoghi famosi in riferimento a un determinato argomento.
A-to-Z Consente di Localizzare e Accedere a tutte le risorse della biblioteca: riviste online riviste cartacee riviste nelle banche dati in full text riviste.
Orario Ricevimento: venerdì 13:00 – 15:00
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
LA COMPETENZA LA FORMALIZZAZIONE DELLE COMPETENZE OMOGENEITA’ SINTATTICA Cecco Rita 30/03/2007.
RELAZIONE SUI RISULTATI DELLE PROVE INVALSI DI LINGUA ITALIANA
Vincoli di Integrità Non tutte le combinazioni possibili di valori dei domini su cui è definita una relazione sono accettabili. Alcuni attributi possono.
Transcript della presentazione:

Analisi Distribuzionale

Il Continuum dalle frasi semplici alle forme polirematiche * ricapitolando Il Continuum dalle frasi semplici alle forme polirematiche Frasi distribuzionalmente libere: altri livelli di variabilità di co-occorrenza Frasi distribuzionalmente ristrette: limitati livelli di variabilità di co-occorrenza Frasi fisse: livelli di variabilità di co-occorrenza (pressappoco) nulli Proverbi: livelli di variabilità di co-occorrenza nulli Composizionalità Idiomaticità

Il Continuum dalle frasi semplici alle forme polirematiche * ricapitolando Il Continuum dalle frasi semplici alle forme polirematiche Frasi distribuzionalmente libere: altri livelli di variabilità di co-occorrenza Frasi distribuzionalmente ristrette: limitati livelli di variabilità di co-occorrenza Frasi fisse: livelli di variabilità di co-occorrenza (pressappoco) nulli Proverbi: livelli di variabilità di co-occorrenza nulli Composizionalità Idiomaticità

Distribuzione di un elemento * ricapitolando Distribuzione di un elemento La distribuzione di un elemento viene definita da Harris come la somma di tutti contesti di quell’elemento, dove il contesto di un elemento A è la disposizione effettiva dei suoi co-occorrenti. Attraverso la sostituzione di elementi lessicali all’interno delle frasi si verifica in che modo la frase reagisce a tali modifiche, in termini semantici e in relazione alle eventuali trasformazioni accettate. Harris, Z. S. (1970). Discourse analysis. In Papers in structural and transformational linguistics, pages 313–347.

Verosimiglianza di Occorrenza * ricapitolando Verosimiglianza di Occorrenza Anche se i parlanti sono portati a pensare che gli elementi che compongono le frasi sono combinati tra loro in modo arbitrario, in realtà non fanno altro che scegliere alcuni membri all’interno delle classi che compaiono regolarmente insieme. La selezione dipende dalla probabilità che un elemento co-occorra con altri elementi che appartengono ad una classe piuttosto che ad un’altra. Ovviamente esiste una gradualità nell’accettabilità della combinazione di elementi nelle frasi, i quali co-occorrendo possono generare enunciati più o meno verosimili.

Verosimiglianza di Occorrenza Frasi distribuzionalmente libere: Maria pensa alla (città + mela + sorella + felicità) Frasi distribuzionalmente ristrette: Maria mangia la (*città + mela + *sorella + *felicità) Frasi fisse: Maria è bianca come un (cadavere + fantasma + *topo + *sentimento) Proverbi: Chi nasce tondo non può morir (quadrato + *rombo + *cilindro + *triangolo) Composizionalità Idiomaticità

Verosimiglianza di Occorrenza * ricapitolando * ricapitolando Verosimiglianza di Occorrenza Frasi distribuzionalmente libere: N0 pensa a N non ristretto Frasi distribuzionalmente ristrette: N0 mangia N ristretto Frasi fisse: N0 è bianca come C (costituente fisso) Proverbi: Chi nasce tondo non può morir quadrato Composizionalità Idiomaticità

Tratti lessico-semantici dei nomi Nomi Comuni Nomi Propri Fonte: Chomsky. Aspects of the Theory of Syntax. Pag 83

Tratti lessico-semantici dei nomi Astratto Concreto Umano Animale Fonte: Chomsky. Aspects of the Theory of Syntax. Pag 83

Semantica a Tratti La classificazione dei nomi assolutamente NON vuole essere un tentativo di realizzazione di semantica a tatti. L’ipotesi della semantica a tratti è che i termini possano essere scomposti in unità minime di significato (figure). I tratti semantici costituirebbero condizioni necessarie e sufficienti per la definizione dei termini.

Semantica a Tratti La classificazione dei nomi assolutamente NON vuole essere un tentativo di realizzazione di semantica a tatti. L’ipotesi della semantica a tratti è che i termini possano essere scomposti in unità minime di significato (figure). I tratti semantici costituirebbero condizioni necessarie e sufficienti per la definizione dei termini.

Semantica a Tratti La classificazione dei nomi assolutamente NON vuole essere un tentativo di realizzazione di semantica a tatti.

Semantica a Tratti La classificazione dei nomi assolutamente NON vuole essere un tentativo di realizzazione di semantica a tatti. PERO’ Il piano del Contenuto non si presta ad essere analizzato in figure. Perché le categorie semantiche si definiscono l’un l’altra senza un ordine gerarchico fisso.

Tratti lessico-semantici dei nomi Le proprietà in base alle quali vengono descritti i lemmi sono le seguenti: Trait, che specifica i tratti lessico-semantici dei nomi Type, che fornisce informazioni semantico-distribuzionali sui nomi

Il carattere “distribuzionale” della classificazione Il nostro esperimento ha la finalità di correggere una delle principali problematiche che presentano i più noti lessici annotati semanticamente (i.e. WordNet, FrameNet, ecc…), i quali tendono a raggruppare insieme parole che sono correlate da un punto di vista semantico, ma che non hanno nulla a che vedere tra loro da un punto di vista sintattico o distribuzionale.

Il carattere “distribuzionale” della classificazione I predicati vengono definiti attraverso la natura semantica dei loro argomenti. Questa osservazione si fonda, empiricamente, sul fatto che non esiste alcun predicato che abbia due significati differenti con le stesse classi di argomenti. Per effettuare una classificazione distribuzionale, bisogna prevedere delle classi semantiche che definiscano gli argomenti appropriati per ciascuno di questi impieghi. Gross, G. (1994). Classes d'objets et description des verbes. Langages, 15-30.

Il carattere “distribuzionale” della classificazione Per rendere conto dei differenti impieghi di un predicato, ci si serve essenzialmente di tratti come: concreto, astratto, umano, ecc... Questo strumento descrittivo è, tuttavia, troppo sommario. Gross, G. (1994). Classes d'objets et description des verbes. Langages, 15-30.

Il carattere “distribuzionale” della classificazione Quattro livelli di precisione per descrivere gli argomenti: Predicati senza restrizioni selettive. E’ il caso, per esempio, dei verbi “parlare (di)” o di “pensare (a)” per ciò che concerne i loro oggetti. Le iperclassi: altri predicati, invece, selezionano tra i sostantivi di grandi classi semantiche. Sono ad esempio: umano, concreto inanimato, astratto, ecc..  Le classi di oggetti: alcuni predicati selezionano “un insieme di sostantivi, semanticamente omogenei, che determina una interruzione di interpretazione di un dato predicato, delimitandone un impiego specifico.”. Tali entità sono costruite su delle basi sintattiche e sono determinate dal significato dei predicati.   Singleton: si tratta di predicati il cui spettro argomentale è ridotto ad una sola unità  Gross, G. (1994). Classes d'objets et description des verbes. Langages, 15-30.

Il carattere “distribuzionale” della classificazione Nel presente esperiemnto siamo interessati ai concetti di iperclassi (da qui in poi chiamate Trait) e classi di oggetti (da qui in poi chiamate Type). Lo scopo è quello di rendere informatizzabile il processo di sostituzione di predicati e classi di nomi (iperclassi o classi di oggetti a seconda del caso) all’interno delle frasi.

Il carattere “distribuzionale” della classificazione Trait, che specifica i tratti lessico-semantici dei nomi Type, che fornisce informazioni semantico-distribuzionali sui nomi Le iperclassi: altri predicati, invece, selezionano tra i sostantivi di grandi classi semantiche. Sono ad esempio: umano, concreto inanimato, astratto, ecc..  Le classi di oggetti: alcuni predicati selezionano “un insieme di sostantivi, semanticamente omogenei, che determina una interruzione di interpretazione di un dato predicato, delimitandone un impiego specifico”. Tali entità sono costruite su delle basi sintattiche e sono determinate dal significato dei predicati.

Il carattere “distribuzionale” della classificazione La sintassi delle classi di oggetti La definizione in esteso delle classi permette di generare tutte le frasi possibili che rientrano in uno stesso impiego. Ma è possibile anche partire da una classe di oggetti data ed esaminare l’insieme dei predicati che possono completare. Ad esempio, la classe degli Conc+Nbot (i.e. piante) non risulta appropriata solo per il verbo abbattere, ma anche per piantare, tagliare, rimondare, ecc. Se facessimo il censimento di tutti i predicati dove può figurare una classe di oggetti, la potremmo descrivere per intero.

Il carattere “distribuzionale” della classificazione Gli operatori appropriati Succede, certamente, che un solo predicato possa determinare da solo una classe di oggetti: è, per esempio, il caso di rimondare, per quella degli alberi. Ma nella maggior parte dei casi gli operatori risultano adeguati ad una specifica classe semplicemente per uno dei loro impieghi. Pertanto, la definizione sintattica di una classe può avvenire anche grazie all’aiuto di un raggruppamento di impieghi di predicati. Se il verbo portare può, in ciascuno dei suoi sensi, essere applicato a tutti i concreti, una combinazione di verbi come portare, indossare, togliere, infilare, stirare potrà delimitare solo nomi di indumenti.

Guidelines per l’annotazione dei nomi dell’italiano Vengono categorizzate insieme parole che possono occorrere in posizioni analoghe nelle frasi in relazione a specifici predicati, con particolare riferimento a quei predicati che prevedono una selezione ristretta di uno o più argomenti. TASK: sottoclassificare i nomi dell’italiano, precedentemente annotati come astratti o concreti. Nomi Concreti 20.039 entrate lessicali Nomi astratti 33.753 entrate lessicali

Guidelines per l’annotazione dei nomi dell’italiano Vengono categorizzate insieme parole che possono occorrere in posizioni analoghe nelle frasi in relazione a specifici predicati, con particolare riferimento a quei predicati che prevedono una selezione ristretta di uno o più argomenti. TASK: sottoclassificare i nomi dell’italiano, precedentemente annotati come astratti o concreti. I lemmi sono attribuiti ad una classe piuttosto che ad un’altra sulla base della relazione di sussunzione (X è un Y, is_a). Il tag dunque rappresenta l’iperonimo (o superordinate) dei membri che contrassegna.

Guidelines per l’annotazione dei nomi dell’italiano Per la proprietà Trait, ogni lemma può essere descritto da uno o da più (max 3, basandosi sulla marca d’uso) etichette, dato che la presenza di uno di essi non esclude la possibilità di possederne altri. i.e. corallo è concreto (1 significato, +Conc), animale (2 significato, +Anl), astratto (3 significato, + Astr).

Guidelines per l’annotazione dei nomi dell’italiano Per la proprietà Trait, ogni lemma può essere descritto da uno o da più (max 3, basandosi sulla marca d’uso) etichette, dato che la presenza di uno di essi non esclude la possibilità di possederne altri. i.e. corallo è concreto (1 significato, +Conc), animale (2 significato, +Anl), astratto (3 significato, + Astr). +Conc+Nmat

Guidelines per l’annotazione dei nomi dell’italiano Per la proprietà Trait, ogni lemma può essere descritto da uno o da più (max 3, basandosi sulla marca d’uso) etichette, dato che la presenza di uno di essi non esclude la possibilità di possederne altri. i.e. corallo è concreto (1 significato, +Conc), animale (2 significato, +Anl), astratto (3 significato, + Astr). +Anl

Guidelines per l’annotazione dei nomi dell’italiano Per la proprietà Trait, ogni lemma può essere descritto da uno o da più (max 3, basandosi sulla marca d’uso) etichette, dato che la presenza di uno di essi non esclude la possibilità di possederne altri. i.e. corallo è concreto (1 significato, +Conc), animale (2 significato, +Anl), astratto (3 significato, + Astr). +Astr+Ncolor

Guidelines per l’annotazione dei nomi dell’italiano Ma cos’è la marca d’uso? Per ogni accezione del Dizionario online De Mauro è indicata la marca d’uso, scelta tra undici categorie:    LE di uso solo letterario,  RE regionale,  DI dialettale,  ES esotismo (forestierismo),  BU di basso uso,  OB obsoleto. FO fondamentale,  AU di alto uso,  AD di alta disponibilità CO comune,  TS tecnico-specialistico (seguita dell’ambito di riferimento),

Guidelines per l’annotazione dei nomi dell’italiano Ma cos’è la marca d’uso? FO, AU e AD rappresentano le parole che coprono circa il 98% dei discorsi.     LE di uso solo letterario,  RE regionale,  DI dialettale,  ES esotismo (forestierismo),  BU di basso uso,  OB obsoleto. FO fondamentale,  AU di alto uso,  AD di alta disponibilità CO comune,  TS tecnico-specialistico (seguita dell’ambito di riferimento),

Guidelines per l’annotazione dei nomi dell’italiano Ma cos’è la marca d’uso? Nell’esperimento, dovendo attribuire alle entrate max 3 tag, avranno la precedenza le marche d’uso FO, AU, AD, CO, TS. È comunque l’annotatore che, grazie alla sua competenza linguistica, saprà decidere quale uso preferire a quelli suggeriti dai dizionari.   LE di uso solo letterario,  RE regionale,  DI dialettale,  ES esotismo (forestierismo),  BU di basso uso,  OB obsoleto. FO fondamentale,  AU di alto uso,  AD di alta disponibilità CO comune,  TS tecnico-specialistico (seguita dell’ambito di riferimento),

Guidelines per l’annotazione dei nomi dell’italiano Ma cos’è la marca d’uso? Se proprio si ha la sensazione che, per un dato lemma, 3 possibili tag non siano sufficienti, si scrivano le ulteriori accezioni (sotto forma di tag) nella colonna dei commenti.   LE di uso solo letterario,  RE regionale,  DI dialettale,  ES esotismo (forestierismo),  BU di basso uso,  OB obsoleto. FO fondamentale,  AU di alto uso,  AD di alta disponibilità CO comune,  TS tecnico-specialistico (seguita dell’ambito di riferimento),

Guidelines per l’annotazione dei nomi dell’italiano Il Tagset utilizzato per la sottocategorizzazione del Trait è:   TAG SET DESCRIZIONE ESEMPI 1 Astr Astratto Lacerazione, ingessatura, intarsiatura, invenzione 2 Anl Animali (vivi o morti che siano) Gru, lama, leoncino, maggiolino, abbacchio 3 AnlColl Animali (nomi collettivi) Bestiame, lucciolaio 4 Um Umani Guardaspalle, guru, interprete 5 UmColl Umani (nomi collettivi) Scuola, Industria, Istituto... 6 Conc Concreti Ago, sacco, gancio… 7 ConcColl Copncreti (nomi collettivi) Mucchio, pagliaio, piumaggio… * ****Coll Nomi colletivi Tag abbinato sempre agli altri Trait, Gruppo generico di persone, animali o cose

Guidelines per l’annotazione dei nomi dell’italiano Il Tagset utilizzato per la sottocategorizzazione del Type dei nomi concreti (animati e non) è: TRAIT TAG TYPE DESCRIZIONE +Conc +Npc parti del corpo +Npcorg parti di organismo +Ntesti testi +Nindu indumenti +Ncos cosmetici +Ncibo cibo +Nliq liquido +NliqBev liquido bevibile +Nmon moneta +Nedi edilizia +Nloc locativi TRAIT TAG TYPE DESCRIZIONE +Conc +Nmat materia generico +Nbot botanica +Nfarm farmaci +Ndrugs droghe +Nchim elementi chimici +Ndisp dispositivi elettronici +Nvei veicoli +Narr arredamento +Nstr strumenti

Guidelines per l’annotazione dei nomi dell’italiano Il Tagset da utilizzare per la sottocategorizzazione del Type dei nomi astratti è: TRAIT TYPE DESCRIZIONE ESEMPIO +Astr +Npsic sensazioni, emozioni, sentimenti, stati psicologici amore +Nqual nomi di qualità fedeltà, amorevolezza +Nproc processo sterzata +Astr+Conc processo e risultato del processo ingessatura +Nmed malattie cardiopatia +Ndata nomi data-durata pomeriggio, maggio, giorno, ora, momento +Nmus suoni, note musicali la, do, clang, clangore, chiasso +Nalfb lettere alfabetiche a, b, c, … +Nnum numeri mille, cento +Nling parole lessema +Nlingua lingue e toponimi barese, salernitano, napoletano +Ngioch giochi, sport e attività ludiche acchiapparella +Ndisc discipline, dottrine, movimenti geologia, matematica, +Nmis unità di misura metro, litro +Ncolor colori blu, rosso +Nsap sapori amaro, insipidità +X categoria residuale Non riesco ad utilizzare le classi a disposizione

Guidelines per l’annotazione dei nomi dell’italiano *il nome da testare va inserito sempre alla destra del verbo come complemento e, per convenzione, MAI in posizione soggetto Guidelines per l’annotazione dei nomi dell’italiano I predicati appropriati da utilizzare per la sottocategorizzazione del Type dei nomi astratti sono I seguenti: Npsic Nqual Nproc Nmed Ndata Nmus Nlingua provare N mostrare N attuare N contrarre N trascorrere un N suonare N parlare N sentire N dimostrare N implementare N soffrire di N passare un N abitare nel N provare un senso di N valutare N compiere N ammalarsi di N durare N ascoltare N tradurre in N provare una sensazione di N manifestare N svolgere N guarire da N ricordare un N registrare N bestemmiare in N provare un sentimento di N ostentare N sviluppare N diagnosticare N aspettare un N riprodurre N - patire N ammirare N effettuare N vaccinare contro N cronometrare N intonare N esprimere N decantare N realizzare N contagiarsi con N decorrere da N fischiare N suscitare N definirsi N bloccare N aggravarsi di N intervallare N inacutire N percepire N qualificare come N acutizzarsi di N ritardare a N sonorizzare N risaltare per N avviare N recedere di N udire N arrecare N emergere per N recidivare di N sussurrare N riacuirsi di N

Guidelines per l’annotazione dei nomi dell’italiano *il nome da testare va inserito sempre alla destra del verbo come complemento e, per convenzione, MAI in posizione soggetto Guidelines per l’annotazione dei nomi dell’italiano I predicati appropriati da utilizzare per la sottocategorizzazione del Type dei nomi astratti sono I seguenti: Nnum Nling Nsap Ngioch Ndisc Nmis Ncolor Nalfb contare N scrivere N assaporare N giocare a N studiare N misurare N dipingere di N - sottrarre N pronunciare N gustare N praticare N approfondire N convertire N (in N) colorare di N dividere per N derivare N assaggiare N barare a N insegnare N ridurre N (a N) moltiplicare per N disambiguare N disgustarsi con N battere a N seguire N macchiare di N etimologizzare N esaltare N perdere a N introdurre N tingere di N flettere N sfrenarsi a N teorizzare N tinteggiare di N lemmatizzare N sfidare a N sperimentare N sfumare N prefissare N suffissare N sillabare N

Guidelines per l’annotazione dei nomi dell’italiano

Guidelines per l’annotazione dei nomi dell’italiano

Guidelines per l’annotazione dei nomi dell’italiano In generale fino a 3 etichette possono essere associate ad un solo lemma. Ciò, però, può avvenire solo e soltanto se fanno riferimento a più usi e più significati associati alla stessa entrata dizionariale. La regola generale da seguire nell’annotazione è di cercare di ridurre la complessità del dizionario, dunque bisogna evitare di aggiungere tag relativi a significati con bassa frequenza d’uso. In questo task gli annotatori non sono autorizzati a proporre nuovi tag rispetto a quelli che trovano in questo documento.

Guidelines per l’annotazione dei nomi dell’italiano Il dizionario da consultare per il tagging dei nomi Astratti dell’italiano è «Il Nuovo De Mauro» online al sito: https://dizionario.internazionale.it/ Qualora dono dovessero essere presenti i lemmi ricercati potete estendere la ricerca a «il Sabatini Coletti» online al sito: http://dizionari.corriere.it/dizionario_italiano/

Guidelines per l’annotazione dei nomi dell’italiano Ogni annotatore, quando procede a svolgere il tsk d’annotazione dorvrà: Cercare OGNI lemma elencato nella scheda astratti_tutti sul dizionario indicato; Valutare l’appertenenza del lemma alle classi indicate nella scheda tagset; Testare SEMPRE la co-occorrenza di OGNI lemma con il gruppo di operatori appropriati per specifiche classi, indicati nella scheda operatori_appropriati; Attribuire i tag TYPE (ed eventuali altri TRAIT, oltre ad Astr) SEMPRE utilizzando il menu a tendina a disposizione in ogni casella; È possibile correggere il tag TRAIT Astr, qualora, in seguito alla consultazione del dizionario, ci si dovesse accorgere di errori nella precedente annotazione.

Guidelines per l’annotazione dei nomi dell’italiano Ogni annotatore, quando procede a svolgere il tsk d’annotazione dorvrà: Cercare OGNI lemma elencato nella scheda astratti_tutti sul dizionario indicato; Valutare l’appertenenza del lemma alle classi indicate nella scheda tagset; Testare SEMPRE la co-occorrenza di OGNI lemma con il gruppo di operatori appropriati per specifiche classi, indicati nella scheda operatori_appropriati; Attribuire i tag TYPE (ed eventuali altri TRAIT, oltre ad Astr) utilizzando il menu a tendina a disposizione in ogni casella; È possibile correggere il tag TRAIT Astr, qualora, in seguito alla consultazione del dizionario, ci si dovesse accorgere di errori nella precedente annotazione. È necessario avere davanti una STAMPA dei due file durante l’annotazione

Valutazione dell’Esperimento Per tutti gli studenti corsisti, 1000 entrate annotate accuratamente* vengono premiate con un bonus di un punto sul voto finale. Eventualmente, su (apprezzatissima) richiesta dello studente, è possibile continuare l’annotazione su altre 500 entrate (e così via), venendo premiato con 0,5 in più sul voto finale (per ogni gruppo di 500 nuovi lemmi annotati). Non si considera per la valutazione un numero inferiore a 1000 entrate. *I punti bonus saranno concessi solo se, dopo la correzione di un campione rappresentativo dei dati, si verificherà che l’annotazione è stata effettuata in modo accurato.

Orari di Ricevimento (su appuntamento) Scadenze 22 maggio: annotazione dei 1000 nomi per 1 punto; OPPURE 15 maggio: annotazione dei primi 1000 nomi, in vista dell’ulteriore annotazione di N. nomi (ogni 500, 0,5 punti).

Orari di Ricevimento (su appuntamento) Alessandro Maisto Serena Pelosi Lunedì Stanza degli Assegnisti 12:30 14:30 Daniela Trotta Venerdì Biblioteca Placanica 11:00 14:00