I VERBI che ci accompagneranno

Slides:



Advertisements
Presentazioni simili
CORSO elementare su DATABASE Applicativo utilizzato OpenOffice 3.0.
Advertisements

Basi di dati - Fondamenti
Il Parallel Turin University Treebank
Linguistica computazionale, treebank e altre risorse
Rappresentazione dell’ Informazione Informazione e Comunicazione
GeoGebra QuizFaber Formazione tra pari
IL PRONOME Il pronome è la parte variabile del discorso che sostituisce un nome, aggettivo ,un verbo o un altro pronome o un’intera frase evitando la.
Dal problema al processo risolutivo
Laboratorio di produzione editoriale
Relazione finale su [nome del progetto]
Raccolta ed Analisi dei Requisiti nella Progettazione
Algoritmi e soluzioni di problemi
Universal Dependencies e treebank
Dal problema al processo risolutivo
Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.
Studente/i Relatore Correlatore Committente Aris Piatti
Computer assisted translation e terminologia
LE BANCHE DATI PER LE RICERCHE BIBLIOGRAFICHE
L’articolo.
Conoscenze, abilità, competenze
Adeguamento obiettivi curricolari
Margarita Borreguero Zuloaga Annamaria Cacchione
L’aggettivo Leggi la frase a lato. Individuiamo insieme i nomi Individuiamo insieme gli aggettivi Rifletti: che funzione svolge l’aggettivo rispetto al.
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Usare il vocabolario.
Gestione Informatica dei Dati Aziendali Sistemi Informativi Gestionali
IL TESTO ESPOSITIVO - INFORMATIVO
reading.0: let’s bring the ‘Natural Approach’ into classes
Il vocabolario Vocabolario e lemma
Che cos’e’ l’Informatica
IL VERBO I modi & I tempi.
Consultare un corpus con AntConc
Gli schemi concettuali
Rappresentazione dei Numeri
Progetto CLIL Grammar IC “G. Marconi” Castelfranco Emilia
AMICI SEMPRE IN ACCORDO NOME, ARTICOLO E AGGETTIVO
Situazione problematica con le tessere della Matematòca algebrica
Basi di dati - Fondamenti
Programmare.
Lo sviluppo del linguaggio
Unità didattica 2 - Strutture e configurazioni delle organizzazioni
nel processo decisionale
Gli automi.
Produrre un testo scritto prima di saper scrivere
I pomeriggi del CLA Errori, sbagli, interlingua nell'apprendimento dell'italiano L2 05/06/2018 dott. Simone Cavallo.
Sistemi informativi statistici
Ricorsione 16/01/2019 package.
Ortografia Etimologia: ὀρθός (orthós), "corretto“, e γραφή (graphé), "scrittura“. La grafia di una lingua non è uno dei suoi livelli, ma una sorta di fenomeno.
Corsi di Laurea in Biotecnologie
Definizione di linguaggio di programmazione
Conoscenze, abilità, competenze
Semantica dinamica Vogliamo definire una funzione che associ ad ogni termine corretto del mio linguaggio di programmazione un valore. Questa associazione.
Fogli elettronici e videoscrittura
Teoria della computabilità
LATINO LEZIONE 1.
Strategie di progetto Si possono utilizzare le strategie tipiche dello sviluppo di un processo di ingegnerizzazione (es. ingegneria del software). Strategie.
Premessa Parlare di Problem Based o Project Based Learning significa affrontare alcuni problemi specifici: Cosa possiamo fare per rinnovare la scuola.
Dalle prove INVALSI alla didattica
Laboratorio per Applicazioni CAD Docente: Ing. Filippo Gagliano
La metodologia del nostro curricolo di italiano: principi generali
CLASSE PRIMA: FONDAMENTALI LE ESPERIENZE IN CLASSE – SI FORMALIZZA MOLTO POCO, L’IMPORTANTE E’ FARE ESPERIENZA DI COMUNICAZIONI DIVERSE, IN CONTESTI DIVERSI,
Unità D1 L’informatica e il problem solving
Caterina Viviano Istat – Responsabile del
DAL TESTO ALLA CONVERSAZIONE
I VERBI che ci accompagneranno
IMPARARE – L’Intelligenza Artificiale
I VERBI che ci accompagneranno
google. it/url
RELAZIONE SUI RISULTATI DELLE PROVE INVALSI DI LINGUA ITALIANA
ANALISI RAGIONATA delle PROVE INVALSI
Transcript della presentazione:

I VERBI che ci accompagneranno COMUNICARE IMPARARE STRUTTURARE CORREGGERE COMPRENDERE PARLARE

STRUTTURARE – Il Corpus La costruzione di un corpus serve principalmente a fornire una base documentale per la definizione di una o più Knowledge Base dinamiche di dominio (siano esse sotto forma di ontologia, database relazionali o reti semantiche) contenente le informazioni necessarie per fornire un numero quanto più alto possibile di output validi in funzione delle soluzioni informatiche alla base dei servizi che un sistema implementa, come ad esempio motori di ricerca semantici, QuestionAnwsering in prospettiva Customer Care, Chat-Bot specializzati, etc. Ma il corpus è utile non solo per la costruzione della Knowledge Base ma anche per fornire materiale valido agli algoritmi di ML, cosi da generare modelli predittivi specifici per i processi NLP. Ma prima di arrivare ai modelli è indispensabile strutturare il corpus per fornire ai testi un’adeguata annotazione.

CoNLL [Computational Natural Language Learning] STRUTTURARE – CoNLL CoNLL [Computational Natural Language Learning] E’uno standard il cui scopo è fornire un metodo di annotazione universale che consenta la descrizione di un testo in maniera rigorosa e soprattutto strutturata, cosi da poterla adoperare nei processi di machine learning. # text = Tutti gli esseri umani sanno di poter essere più di ciò che sono. 1 Tutti tutto DET T Gender=Masc|Number=Plur|PronType=Tot 3 det:predet _ _ 2 gli il DET RD Definite=Def|Gender=Masc|Number=Plur|PronType=Art 3 det _ _ 3 esseri essere NOUN S Gender=Masc|Number=Plur 5 nsubj _ ExtraSubj=Yes 4 umani umano ADJ A Gender=Masc|Number=Plur 3 amod _ _ 5 sanno sapere VERB V Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin 0 root _ _ 6 di di ADP E _ 9 mark _ _ 7 poter potere AUX VM VerbForm=Inf 9 aux _ _ 8 essere essere AUX V VerbForm=Inf 9 cop _ _ 9 più più ADV B _ 5 xcomp _ _ 10 di di ADP E _ 11 case _ _ 11 ciò ciò PRON PD Gender=Masc|Number=Sing|PronType=Dem 9 obl _ _ 12 che che PRON PR PronType=Rel 13 nsubj _ _ 13 sono essere VERB V Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin 11 acl:relcl _ SpaceAfter=No 14 . . PUNCT FS _ 5 punct _ _

STRUTTURARE – CoNLL Lo standard CoNLL si articola su 10 colonne, ciascuna delle quali ha un suo preciso significato. ID: E’ l’indice delle parola all’interno della frase. FORM: E’ la parola all’interno della frase. LEMMA: Lemma della parola. UPOS:  Tag che rappresenta Universal Part Of Speach POS (parte del discorso). XPOS: Tag che specifica la Part Of Speach specifica per la lingua corrente. FEATS: Lista di features morfologiche generali o specifiche per la lingua corrente. HEAD: Rappresenta l’indice della parola (head) cui quella corrente è associata, 0 indica una root. DEPREL:  Indica la relazione di dipendenza della parola con la sua head. DEPS: Grafico delle dipendenze migliorato sotto forma di un elenco di coppie head-deprel. MISC: Annotazione libera. https://universaldependencies.org/format.html

STRUTTURARE – CoNLL L’annotazione nel formato CoNLL consente una rappresentazione grafica del testo da cui è possibile cogliere immediatamente le dipendenze tra le parti del discorso e quindi il ruolo di ogni vocabolo all’interno della frase. Tutti gli esseri umani sanno di poter essere più di ciò che sono. https://arborator.ilpga.fr/q.cgi https://universaldependencies.org/conllu_viewer.html

STRUTTURARE – Il ruolo del linguista La costruzione del corpus è un procedura lunga e articolata. E’ indispensabile assicurare un giusto equilibrio tra documenti generici e quelli specifici di dominio; e una volta individuata la giusta proporzione, procedere all’annotazione dei testi, il fine è l’attivazione di un processo di apprendimento automatico supervisionato (Machine Learning), basato sul corpus annotato. Una parte del quale costituirà il training set, il rimanente sarà il test set; secondo lo schema dell’apprendimento supervisionato. Dopo le iterazioni necessarie per addestrare e raffinare i risultati ottenuti, si perviene al modello finale. Dal modello scaturisce l’implementazione di una IA capace di analizzare la frase in autonomia. I software di questo tipo si chiamano PARSER e la loro capacità comprende tra le altre: L’individuazione delle parti del discorso (POS Tagging) Il riconoscimento del lemma della parola (Lemmatizzatore) La tracciatura delle dipendenze che legano le differenti parti del discorso (Parser sintattico)

STRUTTURARE – I PARSER Esistono diversi software che permettono l’analisi sintattica di una frase a partire da un modello generato mediante algoritmi di machine learning, ne indichiamo alcuni per eventuali approfondimenti. SyntaxNet: https://github.com/tensorflow/models/tree/master/research/syntaxnet OpenNLP: https://opennlp.apache.org/ TreeTagger: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ TINT: http://tint.fbk.eu/

STRUTTURARE – Dizionari Elettronici I dizionari elettronici sono dei database lessicali destinati esclusivamente ad applicazioni informatiche. La loro natura è articolata su tre caratteristiche principali: Completezza (non possono trascurare informazioni) Esplicitazione Codificazione Le dimensioni e la complessità dei dizionari elettronici, sono maggiori rispetto a quelle delle controparti cartacee. Ciò accade perché non è sufficiente che tali risorse siano digitalmente accessibili; affinché siano utilizzabili per il trattamento automatico del linguaggio devono contenere machine-readable data. Il trattamento del corpus contribuisce ad aumentare la base del dizionario generico, ed è compito del linguista arricchire la voce che corrisponde a un nuovo vocabolo di tutte le informazioni che la rendono completa, esplicita e codificata.

STRUTTURARE – Dizionari Elettronici Una forma possibile per una voce di dizionario elettronico potrebbe assumere un aspetto simile a quello riportato sotto per il vocabolo mangiate: "num" : "p",  "tense" : "",  "verbNum" : "",  "gen" : "f",  "POS" : "N",  "pers" : "",  "lemma" : "mangiata",  "token" : "mangiate",  "ti" : "",  "aux" : "",  "SEM" : "+FLX=N41+" "num" : "p",  "tense" : "",  "verbNum" : "",  "gen" : "f",  "POS" : "A",  "pers" : "",  "lemma" : "mangiato",  "token" : "mangiate",  "ti" : "",  "aux" : "",  "SEM" : "+FLX=N88+DRV=ISSIMO:N88+" "num" : "",  "tense" : "PR",  "verbNum" : "p",  "gen" : "",  "POS" : "V",  "pers" : "2",  "lemma" : "mangiare",  "token" : "mangiate",  "ti" : "t",  "aux" : "a",  "SEM" : "+FLX=V4+DRV=RI+DRV=BILE:N79+" "num" : "",  "tense" : "S",  "verbNum" : "p",  "gen" : "",  "POS" : "V",  "pers" : "2",  "lemma" : "mangiare",  "token" : "mangiate",  "ti" : "t",  "aux" : "a",  "SEM" : "+FLX=V4+DRV=RI+DRV=BILE:N79+" "num" : "p",  "tense" : "",  "verbNum" : "",  "gen" : "f",  "POS" : "V",  "pers" : "",  "lemma" : "mangiare",  "token" : "mangiate",  "ti" : "t",  "aux" : "a",  "SEM" : "+FLX=V4+DRV=RI+DRV=BILE:N79+PP+" "num" : "",  "tense" : "IMP",  "verbNum" : "p",  "gen" : "",  "POS" : "V",  "pers" : "2",  "lemma" : "mangiare",  "token" : "mangiate",  "ti" : "t",  "aux" : "a",  "SEM" : "+FLX=V4+DRV=RI+DRV=BILE:N79+"

STRUTTURARE – Lemmatizzazione L’utilità dei dizionari si lega anche al concetto di lemmatizzazione. La lemmatizzazione è il processo di riduzione di una forma flessa di una parola, alla sua forma canonica, detta lemma. In italiano si ha: VERBI: lemma è l’infinito presente (mangiare, pentire, ecc…) NOMI: lemma è il maschile singolare o femminile singolare (stazione, bicchiere, ecc) AGGETTIVI: distinguiamo quelli a due uscite o quattro uscite Due uscite: lemma è il singolare (utile, presente, ecc…) Quattro uscite: lemma è il maschile singolare (bello, rosso, ecc…) Per le preposizioni e gli articoli si può utilizzare il maschile singolare o lasciare la forma invariata. Il lemma è una delle informazioni che non possono mancare nelle voci di un dizionario elettronico

STRUTTURARE – Perchè è utile la lemmatizzazione La lemmatizzazione è utile perché riduce il numero di variabili su cui i processi lavorano e in sinergia con la corrispondente parte del discorso, garantisce una semplificazione della varietà linguistica; caratteristiche molto utili quando si intende applicare al testo un algoritmo di tipo inferenziale. Tutti gli esseri umani sanno di poter essere più di ciò che sono. Parola PoS Lemma esseri NOUN essere essere AUX essere sono VERB essere I lemmi delle tre parole possiedono la stessa grafia ma il significato è diverso; esseri è un nome quindi il suo lemma è maschile singolare: essere, che non è il verbo essere come negli altri due casi. Da un punto di vista statistico le tre parole potrebbero confluire in un’unica classe se questa tenesse conto solo della grafia, o in due classi distinte se vogliamo considerare anche la PoS.

STRUTTURARE – Riconoscimento Ortografico «Un sistema di riconoscimento o controllo ortografico è un automa capace di confrontare rapidamente un testo con un golden standard composto da vocaboli scritti correttamente (un golden standard di vocaboli corretti), la cui natura garantisce una base di confronto certa per rivelare la presenza di un errore di ortografia; il quale, una volta riconosciuto e localizzato nella frase, può lasciare il posto al vocabolo corretto.» Frase: Lacqua score verso il basso Correzione: L’acqua scorre verso il basso