Intelligent Information Retrieval

Slides:



Advertisements
Presentazioni simili
Teoria e Tecniche del Riconoscimento
Advertisements

Intelligenza artificiale
Sommario Nelle lezioni precedenti abbiamo introdotto tutti gli elementi che formano un particolare tipo di linguaggio logico, denominato linguaggio predicativo.
Sintassi (prima parte)
Algoritmi e Programmazione
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.
Riconoscimento di forme
Sistemi di supporto alle decisioni 2. Features space
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
Sistemi computazionali per il linguaggio naturale
4. Automi temporizzati Il comportamento dei sistemi ad eventi temporizzati non è definito semplicemente da una sequenza di eventi o di valori dello stato,
Intelligenza Artificiale Linguaggio naturale
Intelligenza Artificiale 1 Gestione della conoscenza lezione 7 Prof. M.T. PAZIENZA a.a
Maria Teresa PAZIENZA a.a
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Dip. Economia Politica e Statistica
Algoritmi e strutture Dati - Lezione 7
Processi Aleatori : Introduzione – Parte I
Apprendimento di movimenti della testa tramite Hidden Markov Model
Marco CristaniTeoria e Tecniche del Riconoscimento1 Notizie preliminari Introduzione Facoltà di Scienze MM. FF. NN. Università di Verona A.A
Modelli simulativi per le Scienze Cognitive
Modelli probabilistici
Fondamentidi Programmazione Corso: Fondamenti di Programmazione Classe: PARI-DISPARI Docente: Prof. Luisa Gargano Testo: Aho, Ulman, Foundations of Computer.
Unità Didattica 2 I Linguaggi di Programmazione
Strutture di controllo in C -- Flow Chart --
Fondamenti di Informatica Algoritmi
Intelligenza Artificiale
Intelligenza Artificiale
INSIEMI NUMERABILI L’analisi matematica introduce il concetto di insieme numerabile come insieme i cui elementi possono essere “contati” ossia che possiede.
LINGUAGGI DI PROGRAMMAZIONE
Elementi di Informatica
Elementi di Informatica
Che cos’è l’annotazione di un corpus?
Chomsky La grammatica/sintassi è una proprietà della mente Distinta dalla capacità di comunicare E una facoltà autonoma ed innata La comunicazione è solo.
Linguaggi e Modelli Computazionali LS - Prof E.Denti
Algoritmi e Programmazione strutturata
Espressione polirematica
PROGRAMMAZIONE: linguaggi
Lo sviluppo del software e i linguaggi di programmazione
Introduzione ai linguaggi formali e alle stringhe
Fabio Massimo Zanzotto (slides di Andrea Turbati con aggiunte)
Multimedia information retrieval. Problematica Materiale multimediale: non solo testo, ma audio (speech, musica..) immagini, video Retrieval basato su.
Trattamento Automatico delle Lingue R. Basili a.a
Grammatiche, Linguaggio e Automi R. Basili TAL - a.a
Alla fine degli anni quaranta nasceva il mito del cervello elettronico, e tutte le attività connesse allutilizzo del computer venivano indicate tramite.
Linguaggi per COMUNICARE
Programma di Informatica Classi Prime
Fondamenti di Programmazione
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
Elaborazione del linguaggio naturale CFG: esercizi Maria Teresa PAZIENZA a.a
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
Informatica 3 V anno.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Informatica applicata alla comunicazione multimediale
Sistemi basati su conoscenza Linguaggio naturale: semantica Prof. M.T. PAZIENZA a.a
Grammatiche Grammatiche libere da contesto Grammatiche regolari
Automi temporizzati.
INTELLIGENZA ARTIFICIALE
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Algoritmi e Programmazione (in C) Stefano Cagnoni e Monica Mordonini
Linguistica computazionale: come accedere all’informazione codificata nel linguaggio naturale (seconda parte) Cristina Bosco 2014 Informatica applicata.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
GLI ALGORITMI Appunti preparati dalla prof.ssa Maria D’Angelo.
I linguaggi di programmazione -GALBIATI ALBERTO -ESPOSITO MATTIA.
Unità di apprendimento 6
ALGORITMI, LINGUAGGI E PROGRAMMI Facoltà di Lingue e Letterature Straniere Corso di laurea in Relazioni Pubbliche.
Transcript della presentazione:

Intelligent Information Retrieval

..c’è ben più delle “parole-chiave” Chiedo l’intervento Della protezione civile ..c’è ben più delle “parole-chiave”

Intelligent Information Retrieval Catturare i “contenuti” espressi mediante media diversi: Testi Speech Immagini Audio Video Problematiche e applicazioni molto più complesse che in un motore di ricerca standard Rappresentazione e recupero dei contenuti spesso basati su metodologie di artificial intelligence

Prossime lezioni Trattamento del linguaggio naturale Multimedia IR Opinion Mining Speech processing Information Extraction Question Answering Multimedia IR Image, Audio, Video retrieval

Trattamento del linguaggio naturale (NLP) un’introduzione

Perché NLP è utile? Information Extraction Question answering Opinion Mining Conversational agents Summarization Machine translation Intelligent Information Retrieval

Applicazioni Queste applicazioni richiedono una grande quantità di conoscenza Vi ricordate HAL in 2001:Odissea nello Spazio? (Kubrik, 68) http://www.youtube.com/watch?v=npN9l2Bd06s&feature=related

Open the bay pod doors, Hal http://www.youtube.com/watch?v=nHJkAYdT7qo

Cosa serve per interpretare il dialogo? Speech recognition Conoscenza sul significato delle parole Come le parole concorrono a determinare il significato della frase o domanda Risoluzione delle referenze anaforiche (where you get that idea, Hal?) ..and much more..

Un esempio più realistico What is the Fed’s current position on interest rates? Cosa o chi è “Fed”? Cosa significa “have a position” (in italiano c’è la stessa espressione, “avere una posizione”? In che modo “current” modifica il senso della domanda?

Rappresentazione dei testi in IR “classico” Romney Battles McCain for Michigan Lead By MICHAEL LUO DETROIT — With economic issues at the top of the agenda, the leading Republican presidential candidates set off Monday on a final flurry of campaigning in Michigan ahead of the state’s primary that could again shake up a remarkably fluid Republican field. Recent polls have indicated the contest is neck-and-neck between former Gov. Mitt Romney of Massachusetts and Senator John McCain of Arizona, with former Gov. Mike Huckabee of Arkansas further back. Mr. Romney’s advisers have acknowledged that the state’s primary is essentially do-or-die for him after successive losses in Iowa and New Hampshire. He has been campaigning heavily throughout the state, emphasizing his childhood in Michigan and delivered a policy speech on Monday focused on aiding the automotive industry. In his speech at the Detroit Economic Club, Mr. Romney took Washington lawmakers to task for being a “disinterested” in Michigan’s plight and imposing upon the state’s automakers a litany of “unfunded mandates,” including a recent measure signed by President Bush that requires the raising of fuel efficiency standards. He criticized Mr. McCain and Senator Joseph I. Lieberman, independent of Connecticut, for a bill that they have pushed to cap and trade greenhouse gas emissions. Mr. Romney asserted that the bill would cause energy costs to rise and would ultimately be a “job killer.” Mr. Romney further pledged to bring together in his first 100 days representatives from the automotive industry, unions, Congress and the state of Michigan to come up with a plan to “rebuild America’s automotive leadership” and to increase to $20 billion, from $4 billion, the federal support for research and development in energy, fuel technology, materials science and automotive technology.

Modello vettoriale “bag of words” 17 the 13 and 10 of 10 a 8 to 7 s 6 in 6 Romney 6 Mr 5 that 5 state 5 for 4 industry 4 automotive 4 Michigan 3 on 3 his 3 have 3 are 2 would 2 with 2 up 2 think 2 technology 2 speech 2 primary 2 neck 2 is 2 further 2 fuel 2 from 2 former 2 energy 2 campaigning 2 billion 2 bill 2 at 2 They 2 Senator 2 Republican 2 Monday 2 McCain 2 He 2 Gov 1 wrong 1 who 1 upon 1 unions 1 raising 1 pushed 1 presidential 1 polls 1 policy 1 plight 1 pledged 1 plan 1 people 1 or 1 off 1 measure 1 materials 1 mandates 1 losses 1 litany 1 leading 1 leadership 1 lawmakers 1 killer 1 jobs 1 job 1 its 1 issues 1 indicated 1 independent 1 increase 1 including 1 imposing 1 him 1 heavily 1 has 1 greenhouse 1 gone 1 gas 1 future 1 forever 1 focused 1 flurry 1 fluid 1 first 1 final 1 field 1 federal 1 essentially 1 emphasizing 1 emissions 1 efficiency 1 economic 1 don 1 domestic 1 do 1 disinterested 1 die 1 development 1 delivered 1 days 1 criticized 1 could 1 costs 1 contest 1 come 1 childhood 1 cause 1 cap 1 candidates 1 by 1 bring 1 between 1 being 1 been 1 be 1 back 1 automobile 1 automakers 1 asserted 1 aiding 1 ahead 1 agenda 1 again 1 after 1 advisers 1 acknowledged 1 With 1 Washington 1 There 1 Recent 1 President 1 New 1 Mitt 1 Mike 1 Massachusetts 1 Lieberman 1 Joseph 1 John 1 Iowa 1 In 1 I 1 Huckabee 1 Hampshire 1 Economic 1 Detroit 1 Connecticut 1 Congress 1 Club 1 Bush 1 Arkansas 1 Arizona 1 America

Modello “bag of words” Sapete “di cosa” si parla Ma non cosa viene detto.. Trattamento del linguaggio naturale: “avvicinarsi” a HAL! 3 problemi: Riconoscimento del parlato Analisi dei testi Generazione di testi + sintesi vocale

Avvicinarsi a Hal (without cheating!!) http://www.manifestation.com/neurotoys/eliza.php3 ELIZA

Trattamento del linguaggio naturale Riconoscimento del parlato: convertire il segnale vocale di un parlante in una stringa di termini machine-readable John goes to

Trattamento del linguaggio naturale Elaborazione del linguaggio naturale: convertire una stringa di termini machine-readable in una rappresentazione machine-processable che ne evidenzi la struttura (morfologica, sintattica, semantica, pragmatica..)

1. Struttura morfologica Analisi morfologica John goes to Boston by bus John/name goes/Verb to/prep Boston/name by/prep bus/noun

2.Struttura sintattica Analisi sintattica Sentence NounPhrase VerbPhrase Verb PrepPhrase Name prep Noun Phrase Name PrepPhrase Prep Noun John goes to Boston by bus

3. Struttura semantica Analisi semantica John goes to Boston by bus

Livelli di descrizione: approfondimenti Fonetica (speech) Morfologia Sintassi (sentence) Semantica Pragmatica, logica.. (discourse)

Morfologia Input : una sequenza di parole di un vocabolario Output: una sequenza di coppie (lemma,tag morfologica, eventualmente associata a maggiori informazioni, es: flessione, derivazione, composizione, ambiguità) Es: andiamoci andare/verbo ci/pron bellissimo bello/nome_superl hanno mangiato mangiare/verbo piano piano/(nome,avv,agg)

Morfologia: metodi Metodi basati sulla conoscenza (es. grammatiche) Metodi di apprendimento automatico (stocastici, algebrici) En-large-ment-s

Analisi Sintattica Input: sequenza di coppie (lemma, tag morfologica o POS/part of speech) Output: albero sintattico le cui foglie sono lemmi Es: Giovanni/nome accompagna/verbo Maria/nome con/prep il/art piano/(nome,agg,avv) ./punt

Sintassi: Metodi Metodi basati sulla conoscenza, es. grammatiche Metodi di apprendimento automatico (stocastici, algebrici)

Sintassi: problemi Ambiguità dei POS in input Es: Giovanni/nome accompagna/verbo Maria/nome con/prep il/art piano/(nome,agg,avv) ./punt E’ possibile risolvere l’ambiguità morfologica usando conoscenza grammaticale, infatti la sequenza “art nome punt” è consentita, mentre “art avv punt” o “art agg punt” no

2.Ambiguità sintattica L’ambiguità sintattica è data dal fatto che un gruppo preposizionale “prep art nome” (con il piano) può essere collegato sia al verbo (accompagna) che al nome (Maria) Infatti le sequenze “verbo gruppo preposizionale” e “nome “gruppo preposizionale” sono entrambe sintatticamente corrette

Albero 1 S NP VP Verb NP name name PP prep NP art noun Giovanni accompagna maria con il piano prep NP art noun S NP VP Verb NP

Albero 2 S NP VP PP Verb NP name name prep NP art noun Giovanni accompagna maria con il piano prep NP art noun S NP VP Verb NP PP

Ambiguità sintattica E’ solo la semantica che ci aiuta ad immaginare che in “accompagna Maria col piano” il piano fa da accompagnamento, mentre ad esempio in una frase con identica struttura come “accompagna Maria con gli occhiali” è Maria che porta gli occhiali!!!

Analisi Semantica Input: albero sintattico le cui foglie sono lemmi Output: espressione logica o grafo, i cui argomenti o nodi sono concetti, i cui predicati o archi sono relazioni semantiche

Dall’albero sintattico al grafo semantico giovanni accompagna maria piano sogg ogg modif(con) giovanni accompagna maria sogg ogg piano modif(con) Grafi sintattici (ottenuti direttamente dagli alberi)

Dall’albero sintattico al grafo semantico giovanni accompagna maria sogg ogg piano modif(con) Person: Giovanni agent eseguire-acco mpagnamento patient Person: Maria pianoforte instrum Grafi concettuali: trasformare parole in concetti non ambigui, le relazioni sintattiche in relazioni concettuali

Ambiguità: problema pervasivo nel NLP Cosa serve? Conoscenza linguistica in formato computer-processable (eventualmente acquisibile (semi) automaticamente): Conoscenza dei fonemi Conoscenza dei prefissi, suffissi, lemmi, desinenze Conoscenza delle categorie grammaticali Conoscenza dei significati …. Algoritmi per il trattamento e l’elaborazione della conoscenza

Metodi per l’elaborazione del LN: approfondimenti Base di conoscenza (lemmi, categorie grammaticali, regole, Significati) Algoritmi di elaborazione del LN Definire algoritmi per generare strutture formali e non ambigue da dati non strutturati e ambigui Modellare la conoscenza linguistica

Metodi per l’elaborazione del LN: approfondimenti Algoritmi per l’elaborazione (morfo/sint/sem) Metodi basati su conoscenza Metodi stocastici /statistici Metodi algebrici Metodi per la modellazione della conoscenza Apprendimento automatico (a sua volta, basato sul algoritmi probabilistici, knowledge-based, algebrici)

Modelli probabilistici per il trattamento del linguaggio naturale Hidden Markov Models Modelli probabilistici per il trattamento del linguaggio naturale

Sommario Gli Hidden Markov Models sono un modello probabilistico molto studiato in computer science, specialmente in ambito di telecomunicazioni e ricerca operativa Nel trattamento del linguaggio naturale, vengono utilizzati per: Speech recognition Part of Speech tagging Analisi sintattica

Catene di Markov (richiamo) Sia X1,X2..Xn una sequenza di variabili aleatorie che assumono valori in un alfabeto finito  Per la formula di Bayes: Le variabili sono dette formare una cartena di Markov se: Il valore della variabile aleatoria al tempo i dipende solo dal valore al tempo precedente

Catene di Markov La limitazione di avere un solo elemento di memoria (lo stato precedente) è solo apparente, infatti: Ponendo: La sequenza Z specifica la sequenza X e viceversa La maggiore complessità risulta nella crescita di dimensionalità dell’insieme  , dato che ogni valore di  corriponde ad una possibile sequenza di k valori di Z Quindi è possibile modellare catene di Markov a memoria 2,3 ecc.

Catene di Markov Possiamo modellare i valori delle variabili aleatorie come STATI e etichettare le transizioni fra stati mediante probabilità condizionate: Es: Stato1: pioggia Stato2: nuvole Stato3: sole p(pioggia/nuvole)

Catene di Markov nascoste (HMM) Un HMM è una quintupla Dove: S è un insieme di stati, s0 lo stato iniziale, Y un insieme di simboli di uscita y1..yn, P è una distribuzione di probabilità delle transizioni s’s: p(s’|s), Q è una distribuzione di probabilità dei valori di output q(y|s,s’) La probabilità di osservare una certa sequenza di simboli è: In un HMM le transizioni fra stati sono “nascoste”, ciò che è visibile è solo la sequenza dei simboli emessi Si ha inoltre: s’ s yi

Esempio 1 Un eremita si trova in una caverna e non può osservare il cielo. Però nella caverna ci sono delle alghe: il maggiore o minore livello di umidità delle alghe è probabilisticamente collegato allo stato del tempo

Un esempio più correlato: parole e part of speech (POS) S: le parti del discorso Y: le parole del vocabolario di una lingua Le parole che possono essere emesse nelle transizioni sverbo sono un sottoinsieme di Y Il piano suona forte avv agg art nome verbo p(agg/art) Notate che da ogni stato può essere emesso un sottoinsieme dei simboli in Y (es ”suona” non può essere emesso nelle transizioni da art agg: q(suona|art,agg)=0. In altri termini, “agg” non è un POS di “suona”)

Catene di Markov nascoste Data una sequenza di simboli osservata, quale è la sequenza di stati più probabile che possa averla causata? Es: se osservo asciutto-umido-fradicio, questa sequenza può essere causata da molte sequenze di stati, quale è la più probabile? Se osservo il piano suona forte, le sequenze di POS possibili sono (dato il modello di Markov della figura precedente): art agg verbo avv, art avv verbo agg, art nome verbo avv, art nome verbo agg…., quale è la più probabile? Problema: TROVARE

Quale è la sequenza di stati più probabile? Quale di queste sequenze di stati può avere generato “il piano suona forte”? Art Agg Verb Avv Art Agg Verb Agg Art Nome Verb Avv Art Nome Verb Agg Art Avv Verb Avv Art Avv Verb Agg

Trellies (tralicci) Evidenziano l’evoluzione di un processo che genera una sequenza Evoluzione temporale art agg avv ver nom art agg avv ver nom art agg avv ver nom art agg avv ver nom art agg avv ver nom S Antonio accellera il cammino Il piano suona forte 2 sequenze 6 sequenze

In questo trellis tutte le p(x|x’) sono non nulle Esempio 2 In questo trellis tutte le p(x|x’) sono non nulle Asciutto --umido---fradicio Per sequenze lunghe k, avrò |S|k possibili percorsi

..Torniamo alla stima della max_prob sequence Poiché si tratta di un processo di Markov, per ogni i: Cioè posso considerare uno stato interno della catena e calcolare la sottosequenza che massimizza la probabilità di raggiungerlo si

i(s) i(si) è una funzione che determina quale sequenza di i-1 stati ha la massima probabilità di condurre ad uno stato si al passo i-esimo, condizionata al fatto di partire da uno stato noto s0, e ad aver osservato una certa sottosequenza di simboli y1..yi

Esempio di calcolo della prob. di raggiungere un certo stato Consideriamo una possibile sequenza di stati per una stringa di simboli: art agg avv ver nom Il piano suona forte s0 e iterando: P(art,agg,ver,il,piano,suona|s0)= P(art,agg,il piano|s0)P(verbo,suona|agg) e infine : P(art,il|s0)P(agg,piano|art)P(verbo,suona|agg)P(agg,forte|ver)

Max_prob sequence Perciò: 1)Per ogni livello i del trellis,e per ogni stato s del livello i, trovare la sequenza che massimizza la probabilità di arrivare a s : 2)Quindi, trovare la sequenza più probabile che da s del livello i del trellis conduce a sk: 3)Infine, variando s del livello i, trovare la sequenza completa più probabile (la formula (1))

Max_prob sequence Poiché negli HMM ho che: Posso scrivere:

Algoritmo di Viterbi ed eliminate le transizioni s’s per le quali Set Applica la formula precedente (2) per calcolare la funzione gamma per per la prima colonna del trellis, cioè: Calcolate la 2 per tutti gli s del secondo livello del trellis ed eliminate le transizioni s’s per le quali p(y2,s|s’)1(s’)< 2(s) Notate che la 0 è zero per s diverso da s0!! 4. Ripetete lo stesso passo per tutti gli stati della colonna i-esima, fino alla colonna k, e tornando indietro, generate le possibili sequenze a partire dallo stato s che massimizza

Esempio La/pron,art vecchia/agg,nome la/pron,art porta/nome,verbo la/pron,art sbarra/nome,verbo a p ag n v s0 1(art)=p(la,art|s0) 1(pron)=p(la,pron|s0) 1(s, s≠art,pron)=0 =0,6 =0,4 Come vedremo, il problema è di stimare le p(wk,posi|posj) la Supponiamo di avere a disposizione queste stime

i=2 a p ag n v s0 la a p ag n v 2(ag)=0,3, 2(n)=0,3 vecchia Poiché max=0,3 vengono cancellati due percorsi (sia allo stato ag che allo stato n si arriva con > probabilità dallo stato a, Quindi si eliminano i percorsi s0-p-ag e s0-p-n)

i=3 a p ag n v s0 la vecchia a p ag n v la

..proseguendo a p n v la vecchia porta la sbarra ag n v s0 la vecchia porta la sbarra I percorsi possibili sono: 1: art n art n pron ver, e 2: art n pron ver art n. Se 6(n)> 6(v), l’algoritmo restituisce solo il percorso 2, altrimenti il percorso 1

L’algoritmo di Viterbi ha moltissime applicazioni l'algoritmo di Viterbi serve per determinare quale sequenza di dati trasmessi sia la più probabile causa del flusso osservabile in uscita. l'algoritmo calcola la probabilità dei diversi flussi in ingresso in modo ricorsivo, eliminando in blocco, ad ogni passo, quelli di probabilità minore. Tale eliminazione permette una cospicua riduzione della complessità delle relative operazioni di calcolo. Applicazioni pressochè in ogni campo dell’informatica: telefonia cellulare, speech recognition, genetica..

HMM+Viterbi per riconoscimento del parlato Forme d’onda (segnale vocale) Vettori delle caratteristiche spettrali Stima dei parametri (fonemi) HMM+Viterbi Sequenza di parole

HMM+Viterbi per l’analisi sintattica Albero sintattico (parse tree) Definiamo stringa trasversale un pattern di tags sintattiche che collega un termine alla radice dell’albero, es: I: Pp-NP-S (il primo elemento è il POS) am: vpb-VP-VP-S in: In-PP-VP-S

HMM per l’analisi sintattica combina le stringhe HMM2: predice la sequenza di stringhe trasversali HMM1: data una stringa di parole, predice la stringa di POS

Il solito problema:data una osservazione, predire la sequenza di stati che la genera T è l’insieme delle tag sintattiche, S l’insieme delle stringhe trasversali , wi sono le parole osservate

Euristica per combinare le stringhe Si combinano nodi con la stessa etichetta

Stima dei parametri del modello L’algoritmo di Viterbi si basa sulla stima delle probabilità p(yk,s|s’) dove yk è l’output osservato e s,s’ sono gli stati del modello (parole, POS, stringhe trasversali..) I parametri (cioè le p) possono essere stimati su un “training set” ovvero sequenze annotate da esperti (ad esempio il Wall Steet Journal corpus, per i testi scritti, e vari “speech” corpora PRONELEX, CMUdict..) Algoritmo di Baum-Welch per la stima dei parametri http://labrosa.ee.columbia.edu/doc/HTKBook21/node7.html

Esempio (WSJ) Centinaia di migliaia di frasi <s id="s1"> <graph root="s1_500"> <terminals> <t id="s1_1" word="Pierre" pos="NNP"/> <t id="s1_2" word="Vinken" pos="NNP"/> <t id="s1_3" word="," pos=","/> <t id="s1_4" word="61" pos="CD"/> <t id="s1_5" word="years" pos="NNS"/> <t id="s1_6" word="old" pos="JJ"/> <t id="s1_7" word="," pos=","/> <t id="s1_8" word="will" pos="MD"/> <t id="s1_9" word="join" pos="VB"/> <t id="s1_10" word="the" pos="DT"/> <t id="s1_11" word="board" pos="NN"/> <t id="s1_12" word="as" pos="IN"/> <t id="s1_13" word="a" pos="DT"/> <t id="s1_14" word="nonexecutive" pos="JJ"/> <t id="s1_15" word="director" pos="NN"/> <t id="s1_16" word="Nov." pos="NNP"/> <t id="s1_17" word="29" pos="CD"/> <t id="s1_18" word="." pos="."/> </terminals> Centinaia di migliaia di frasi annotate con POS e tag sintattiche. E’ possibile ottenere stime significative di p(wi,POSi|POSi-1) E p(POSi,Si|POSi-1,Si-1)

Per approfondimenti Statistical Methods for Speech Recognition Frederick Jelinek MIT press