Metodi di ranking probabilistici

Slides:



Advertisements
Presentazioni simili
Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Advertisements

Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
Presente e futuro della religiosità nel nord est DIFFERENZE TRA GENERAZIONI figli e padri italo de sandre 1ids.
Le distribuzioni di probabilità continue
2. Introduzione alla probabilità
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
Mat_Insieme Lavoro di Gruppo Prodotti Notevoli
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
COORDINATE POLARI Sia P ha coordinate cartesiane
Frontespizio Economia Monetaria Anno Accademico
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
I sistemi di riferimento
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Lez. 3 - Gli Indici di VARIABILITA’
1 Innovazione dal punto di vista strategico Francesco Berri Medical Director ASTELLAS PHARMA SpA Bologna 10 Giugno 2011.
Sistemi di supporto alle decisioni 2. Features space
Cammini minimi con sorgente singola
5. Catene di Markov a tempo discreto (CMTD)
Implementazione dell algortimo di Viterbi attraverso la soluzione del problema di cammino mi- nimo tramite software specifico. Università degli studi di.
Analisi Bivariata e Test Statistici
Inferenza statistica per un singolo campione
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
EIE 0607 III / 1 A B P a = 30 P b = 35 t = 2, tc = 1 Questo può essere un equilibrio? No! Politiche di un paese importatore: una tariffa allimportazione.
Apprendimento Automatico: Apprendimento Bayesiano
Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.
Obiettivi del corso di Statistica Medica.
Algoritmo di Ford-Fulkerson
Programmazione 1 9CFU – TANTE ore
ELEZIONI REGIONALI 2010 PRIMI RISULTATI E SCENARI 14 aprile 2010.
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Canale A. Prof.Ciapetti AA2003/04
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Realizzazione e caratterizzazione di una semplice rete neurale per la separazione di due campioni di eventi Vincenzo Izzo.
Algoritmi e Strutture Dati (Mod. A)
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
Tabelle hash.
Modelli probabilistici
Master universitario di II livello in Ingegneria delle Infrastrutture e dei Sistemi Ferroviari Anno Accademico 2012/2013 Cultura dimpresa, valutazione.
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
JavaScript: Array JavaScript: Array.
Cos’è un problema?.
CALCIO SKY 2007 – 2008 PROFILO DI ASCOLTO. 2 INDICE DEGLI ARGOMENTI Profilo di ascolto CALCIO SERIE A 2007 – 2008 Totale campionato (tutte le partite)……………………………………………….
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 6 Inferenza statistica
CHARGE PUMP Principio di Funzionamento
Velocità ed accelerazione
Esercitazione 1: Rispetto al test di ansia (Media=25; σ=5), calcolare:
Q UESTIONI ETICHE E BIOETICHE DELLA DIFESA DELLA VITA NELL AGIRE SANITARIO 1 Casa di Cura Villa San Giuseppe Ascoli Piceno 12 e 13 dicembre 2011.
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
Elementi di Informatica di base
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
TECNOLOGIE DELLINFORMAZIONE E DELLA COMUNICAZIONE PER LE AZIENDE Materiale di supporto alla didattica.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
LE SAI LE TABELLINE? Mettiti alla prova!.
1 Questionario di soddisfazione del servizio scolastico Anno scolastico 2011/2012 Istogramma- risposte famiglie.
Un trucchetto di Moltiplicazione per il calcolo mentale
21 marzo 2002 (ri-)Avvisi: Giovedi 28 marzo la lezione e sospesa. Nuovo indirizzo di Spedire messaggi e esercizi solo.
Metodi di ranking probabilistici
Esempi risolti mediante immagini (e con excel)
NO WASTE Progetto continuità scuola primaria scuola secondaria Salorno a.s. 2013_
I chicchi di riso e la sfida al Bramino
Laurea Ing EO/IN/BIO;TLC D.U. Ing EO 10 PROBABILITA’ E VARIABILI ALEATORIE.
Il numero più grande Accademia dei Lincei
TRASFORMATA DI FOURIER
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Transcript della presentazione:

Metodi di ranking probabilistici

P(rilevante|documentoi, query) IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle Metodi di ranking: Binary Independence Model Bayesian networks L’idea chiave è di classificare i documenti in ordine di probabilità di rilevanza rispetto all’informazione richiesta: P(rilevante|documentoi, query)

Probability Ranking Principle Sia d un documento della collezione. Sia R la rilevanza di un documento rispetto ad una (specifica) query (R=1) e sia NR la non-rilevanza (R=0). Si vuole stimare p(R|d,q) - la probablità che d sia rilevante, data la query q. p(R|q),p(NR|q) - prob. a priori di recuperare un documento (non) rilevante p(d|R,q), p(d|NR,q) - probabilità che, se si trova un documento rilevante (non-rilevante), questo sia d.

Probability Ranking Principle (PRP) Bayes’ Optimal Decision Rule d è rilevante iff p(R|d,q) > p(NR|d,q) Osservate che, modellando il processo di retrieval in termini probabilistici, l’occorrenza di una query, la rilevanza o non rilevanza di un documento, l’occorrenza di un termine in un documento sono tutti eventi aleatori

Probability Ranking Principle Come si calcolano le probabilità condizionate? Si usano “stimatori” Il modello più semplice è il Binary Independence Retrieval (BIR) Assunzioni La “Rilevanza” di ogni documento è indipendente dalla rilevanza degli altri documenti. Usare un modello di rilevanza Booleano: Osservare un insieme iniziale di risultati può aiutare l’utente a raffinare la sua query R={0,1}

Strategia di Retrieval probabilistico Si stima quanto i singoli termini contribuiscano alla rilevanza Es Si combinano queste stime per assegnare una stima all’intero documento Si ordinano i documenti per probabilità decrescente In addition to the “document independence assumption” on previous slide, we have a “term independence assumption”: terms’ contributions to relevance are treated as independent events. Okapi is one particular way of estimating probability given tf, df, and length.

In generale per i modelli probabilistici: Si modella un problema in termini probabilistici (es: la rilevanza di un documento rispetto ad una query è stimata dalla P(R|d,q)) Poiché in generale è difficile stimare una certo modello probabilistico (stimare??), si effettuano una serie di passaggi (ad es. invertire variabile aleatoria condizionante e condizionata con Bayes) e semplificazioni (ad es. assumere l’indipendenza statistica di certe variabili) al fine di rappresentare il modello probabilistico iniziale in termini di probabilità più facili da stimare su un campione.

Binary Independence Model “Binary” = Boolean: i documenti d vengono rappresentati mediante un vettore booleano iff wi è contenuto in dj. “Indipendenza”: i termini occorrono nei documenti indipendentemente l’uno dall’altro Questo è implicitamente assunto anche nel modello vettoriale, ma in un modello probabilistico si tratta di una assunzione esplicita.

Binary Independence Model query documento di q R La freccia indica la dipendenza statistica: l’evento aleatorio R dipende dall’ evento q Obiettivo: stimare P(R/q,di) Rank(di)=f(P(R/q,di))

Binary Independence Model Query: vettore booleano Data una query q, Per ogni documento d calcola p(R|q,d). Sostituisci con il calcolo di p(R|q,x) dove x è il vettore booleano che rappresenta d Si utilizza la regola di Bayes ed il concetto di “odd”: I documenti vengono ordinati (ranking) sulla base del valore di O

Binary Independence Model Costante per ogni query Va stimato Si usa l’assunzione di Indipendenza : Dunque :

Binary Independence Model: effetto dell’inversione delle probabilità q d xn x1 x2 xi R

Binary Independence Model Ma xi (componente del vettore binario associata a wi) è o 0 o 1: Sia NOTA: pi: xi=1, R=1 ri: xi=1, R=0 (1-pi): xi=0, R=1 (1-ri): xi=0, R=0 Si assume, per tutti i termini che non occorrono nella query: allora...

Esempio V{information retrieval paper rank set web} Q: information retrieval paper D: information retrieval web

Binary Independence Model Q= 1 1 1 0 0 0 D= 1 1 0 0 0 1 V{information retrieval paper rank set web} Q: information retrieval paper D: information retrieval web

Esempio Q= 1 1 1 0 0 0 D= 1 1 0 0 0 1 qi=1 qi=1,xi=1

Binary Independence Model Questa è la sola quantità che va stimata per il ranking Costante per ogni query Retrieval Status Value:

Binary Independence Model Tutto si riduce a stimare RSV. I documenti sono ordinati secondo il RSV. Questo dipende dall’intersezione fra parole della query e parole del documento (il set xi=qi=1) ma anche dai valori di pi e ri Used to say: Linear Discriminant Function, because it is a linear function in terms of log probabilities, but maybe that’s too far afield for here, and is better discussed later Come calcoliamo i ci dai dati a disposizione ?

Binary Independence Model Stimare i coefficienti RSV Per ogni termine i della query osserva la tabella dei documenti rilevanti e non : Prabhakar wanted the add 0.5 explained. Here or elsewhere? Log odds ratio. Add 0.5 to every expression Stime: Per ora, assumiamo non esistano termini che non compaiono mai.

Binary Independence Model Ma come si può riempire la tabella di rilevanza per ciascun termine della collezione? Data una collezione di N documenti, posso calcolare n (il numero di documenti con Xi=1) e dunque N-n (quelli con Xi=0), ma come si stima il valore S (numero di documenti complessivamente rilevanti per la query)??

Stima di ri (P(xi=1/NR,q)) Posso approssimare N-S con N (se N>>S  N-S N) . Allora, ri (prob. di un documento non rilevante data una query) è stimata da: n/N , e: log (1– ri)/ri ≈ log (N– ni)/ ni ≈ log N/ ni = IDF! pi (probabilità di occorrenza di wi in documenti rilevanti, data la query) si può stimare in vari modi: Facendo selezionare all’utente alcuni documenti rilevanti di esempio Con una costante, dipendente solo dal valore idf dei termini (i termini più comuni nella collezione hanno probabilità più bassa di rilevanza) Proporzionale all’occorrenza dei termini nella collezione ( i termini più frequenti in assoluto sono i più rilevanti. In generale si usa il log della frequenza) + comuni + frequenti

Stima iterativa di pi (P(xi=1/R,q)) Assumi pi costante per tutti i termini wi della query pi = 0.5 per ogni termine presente nella query Ordina i documenti della collezione sulla base dei ci (formula RSV) calcolati per tutti i termini della query, e mostra all’utente i primi |V | : Nota: se pi = 0.5 e ri ni/N allora ciIDF! Si cerca di migliorare le stime di pi e ri, nel seguente modo: Si utilizza la distribuzione dei termini wi nei documenti di V. Sia Vi il set di documenti in V che contiene wi pi = |Vi| / |V| Si assume che quelli non in V non siano rilevanti: ri = (ni– |Vi|) / (N – |V|) Torna allo step 2. e continua fino alla convergenza pi si approssima con la distribuzione dei termini della query nei documenti recuperati

Aggiustamenti della stima Per piccoli valori di V e Vi (ex. Rispettivamente 0 e 1) si usano degli aggiustamenti, per evitare che pi e ri (o i loro complementi) vadano a zero, portando a zero num o denom dell’argomento del logaritmo : Una formula più semplice utilizza 1/2 al posto di ni/N

Esempio

Step 1 |V|=2 pi = 0.5 , ri ni/N ciIDF!

STEP 2 V=2 N=7 ni= occorrenze di wi nella collezione Vi=occorrenze di wi in V RSV

Probabilistic Relevance Feedback Come prima, assegna un valore costante ai pi ed estrai un primo set V di documenti. Interagisci con l’utente e chiedi di selezionare alcuni documenti rilevanti e non rilevanti in V (in tal modo ottengo un subset di V’ documenti dei quali conosco S e V’-S) Stima nuovamente pi e ri sulla base di questi documenti Oppure combina questa informazione con la precedente, aumentando o diminuendo le precedenti stime Ripeti, generando una successione di approssimazioni. explicit Bayesian smoothing with a prior

Conclusioni sul BIM Alcune di queste assunzioni possono essere rimosse E’ possibile ottenere delle stime di rilevanza. Tuttavia è necessario fare delle assunzioni restrittive: Indipendenza dei termini I termini non presenti nella query non determinano il risultato Si usa una rappresentazione booleana dei documenti e delle query Alcune di queste assunzioni possono essere rimosse

Riferimenti su BIM http://nlp.stanford.edu/IR-book/html/htmledition/probabilistic-approaches-to-relevance-feedback-1.html

Rimuovere l’assunzione di indipendenza dei termini In generale i termini non occorrono indipendentemente Ma la stima delle dipendenze può essere molto complessa van Rijsbergen (1979) propose un semplice modello di dipendenza Ogni termine dipende da uno più termini

Reti Bayesiane per IR Cosa è una Bayesian network? Un grafo aciclico diretto DAG Nodi: Eventi, variabili aleatorie, o variabili Possono assumere valori Per semplicità, nel modell BN-IR, tali valori si assumono booleani Archi: Modellano una dipendenza diretta fra nodi But note that this is a pseudo difference, since it will also internally use independences and inversions just like the standard model, but more flexibly

Bayesian Networks a,b,c - nodi Inference in Bayesian Nets: a b c Le reti Bayesiane modellano la dipendenza fra eventi Inference in Bayesian Nets: note le probabilità a priori per le radici del grafo e le probabilità condizionate (archi) si può calcolare la probabilità a priori di ogni evento condizionato. Se sono noti i valori di verità di alcuni nodi (ad esempio, l’osservazione dell’evento b e di a) si possono ricalcolare le probabilità dei nodi p(a) p(b) a b Dipendenza condizionale c p(c|ab) per ogni valore di a,b,c

Bayesian Networks LINK MATRIX (matrice dei collegamenti) a b c p(a) p(b) P(c=1/a=1,=1) c/ab 00 01 10 11 1

Esempio giocattolo Consegna progetto Esame (d) (f) Notte Depressione insonne (n) Cioccolata e panna (t) LINK MATRIX

Assunzioni di Indipendenza Depressione (g) Esame (f) Consegna progetto (d) Notte insonne (n) Cioccolata e panna (t) Assunzione di indipendenza: P(t|g,f,d)=P(t|g) Probabilità congiunte: P(f d n g t) =P(f) P(d) P(n|f) P(g|f d) P(t|g)

Chained inference Evidenza - si parte dal valore di alcuni nodi (ad es. radice) Inferenza Si calcola la “credenza” o belief (rappresentata eventualmente da probabilità) degli altri nodi Probabilità condizionata all’evidenza rappresentata dai nodi “conosciuti” Due tipi di inferenza: Diagnostica (dall’evento alla causa) o Predittiva (date le possibili cause, stimare la prob. di osservare l’evento causato) Complessità computazionale Per una generica rete (grafo ciclico) : NP-hard Le reti ad albero sono più facilmente trattabili Alcuni autori propongono metodi approssimati (ad esempio basati su programmazione dinamica)

Esempio giocattolo Consegna progetto Esame (d) (f) vera Notte Depressione (g) Esame (f) Consegna progetto (d) Notte insonne (n) Cioccolata e panna (t) vero falso vera P(t)=0,99x0,9+0,1x0,1

Modello bayesiano per IR Obiettivo Data una richiesta di informazione da parte di un utente (evidenza) stima la probabilità che un documento soddisfi la richiesta (inferenza) Modello di Retrieval Modella i documenti come una rete (document network) Modella il bisogno informativo come una query network

Belief Network Model: un modello di ranking basato su Reti Bayesiane Definizioni: K={k1, k2, ...,kt} spazio di campionamento (o spazio dei concetti) u  K un subset di K (un concetto) ki un termine indice (concetto elementare) k=(k1, k2, ...,kn) nt un vettore associato ad ogni concetto u tale che gi(k)=1  ki  u (pesi unitari) ki una variabile aleatoria binaria (cioè ki0,1 ) associata al termine indice ki , t.c. ki = 1  gi(k)=1  ki  u

Belief Network Model Definizioni (2): un documento dj e una query q sono rappresentati come concetti in K, composti dai termini indice contenuti in dj e q. Sia dunque c un concetto generico in K (documento o query) P(c)=uP(c|u) P(u) è una distribuzione di probabilità P su K P(c) è il definito come il grado di copertura dello spazio K mediante c Questa copertura è stimata confrontando ogni concetto in K (“ u”) con c, e sommando i contributi, pesati con le probabilità dei singoli concetti u. Si assume inizialmente equiprobabilità delle sottostringhe u in K (se ho t termini, ciascuno dei quali può essere presente o assente in u, ci sono 2t possibili modi di formare concetti u), cioè: P(u)=(1/2)t

Belief Network Model Topologia della rete lato query lato documento cq cd1 cdn

Q Information retrieval probability information calculus retrieval probability journal finding information finding probability retrieval calculus journal d1 d2 d3 d4

Belief Network Model Il ranking di un documento dj rispetto ad una query q è interpretato come una relazione di corrispondenza fra concetti, e riflette il grado di copertura che il concetto dj fornisce al concetto q. Documenti e query sono trattati nello stesso modo, cioè sono entrambi concetti nello spazio K. Assunzione: P(dj|q) viene considerato come il rank del documento dj rispetto alla query q. http://portal.acm.org/citation.cfm?id=243272 (Ribeiro and Munz, 1996: “A belief network model for IR”)

Belief Network Model Ranking di dj P(dj|q) = P(dj  q) / P(q) Questo fattore compare in tutti i P(dj/q) dunque può essere trascurato Ranking di dj P(dj|q) = P(dj  q) / P(q) = P(dj  q) = u P(dj  q | u) P(u) ~ u P(dj / u) P(q / u) P(u) ~ k P(dj / k) P(q / k) P(k) Assumendo q e dj condizionalmente indipendenti rispetto a u , come si evince dal grafo delle dipendenze nella rete Ogni vettore k definisce un concetto u

Per k concetti, o(k!) stime Belief Network Model Dunque: P(dj|q) ~ k P(dj | k) P(q | k) P(k) Occorre specificare le probabilità condizionate P(dj | k) e P(q | k) . Differenti strategie per modellare P(dj | k) e P(q | k) portano a diversi modelli di ranking. Ad esempio, assumiamo un vocabolario di 3 parole: Information,retrieval, extraction (I,R,E) I concetti possibili sono: (I,R,E), (I,R,-), (I,-,E), (-,R,E), (-,-,E),(-,R,-),(I,-,-),(-,-,-) stimabile Per k concetti, o(k!) stime

A belief network model for IR Sussumendo un modello vettoriale (Ribeiro and Muntz) per i pesi e l’indipendenza dei termini: Definisci il vettore ki come segue: ki = k | ((gi(k)=1)  (ji gj(k)=0)) Il vettore ki si riferisce ad uno stato del vettore k in cui solo il nodo ki è attivo (g(ki)=1) e tutti gli altri non lo sono. Questo riflette la strategia di ranking tf-idf, che somma individualmente il contributo di ogni keyword. Quindi, si considera il contributo di ogni termine ki singolarmente.

Belief Network Model P(dj|q) ~ k P(dj | k) P(q | k) P(k) Per il modello vettoriale: Definisci (wi,q / |q|) se (k = ki ) (gi(q)=1) P(q | k) = 0 se (k  ki ) (gi(q)=0) P(¬q | k) = 1 - P(q | k)  (wi,q / |q|) una versione normalizzata del peso del termine indice ki nella query q peso tf-idf di ki in q ki compare in q

Belief Network Model Per il modello vettoriale Definisci (wi,j / |dj|) se (k = ki ) (gi(dj)=1) P(dj | k) = 0 se (k  ki ) (gi(dj)=0) P(¬ dj | k) = 1 - P(dj | k)  (wi,j / |dj|) una versione normalizzata del peso del termine indice ki nel documento d,j

Riformulazione probabilistica del modello vettoriale!! Belief Network Model Mettendo tutto assieme.. P(dj|q) ~ k P(dj | k) P(q | k) P(k)= Riformulazione probabilistica del modello vettoriale!!

Vantaggi del Belief Network model Per calcolare il rank di un documento, considera solo gli stati della rete in cui i nodi attivi sono quelli che compaiono nella query, quindi il costo è lineare nel numero dei documenti della collezione E’ una variante moderna dei metodi di ragionamento probabilistico, che consente una combinazione di distinte sorgenti di evidenza. I modelli più avanzati consentono di incorporare nel modello evidenze derivate da sessioni precedenti, e feedback dell’utente.

Bayesian Network Retrieval Model Si può rimuovere l’ipotesi di indipendenza: Si rappresentano le principali (più probabili) relazioni di dipendenza statistica fra i termini della collezione. Term subnetwork  Polytree Polytrees: Graphs in which there is no more than one directed path linking each two nodes. Ci sono algoritmi efficenti per l’analisi di polytrees.

Bayesian Network Retrieval Model Sottorete dei termini D1 D2 D3 D4 Sottorete dei documenti query Termini “radice” (indipendenti)

Bayesian Network Retrieval Model Distribuzioni di probabilità: Distribuzioni “marginali” (dei nodi-termine radice): (|V|=t dimensione del vocabolario)

Bayesian Network Retrieval Model Distribuzioni condizionali (basate sul coefficiente di Jaccard) per i termini dipendenti: E(p)=valore atteso di p pa (k) tutti gli n nodi da cui k dipende condizionalmente (es p(rank/(information,retrieval,search,index))

Bayesian Network Retrieval Model Un sistema più semplice (“Two Layers” ): Si considera solo un sottoinsieme di termini “condizionanti” L’analisi della rete è più veloce Propagation in the small polytree plus evaluation in the document layer

Two Layers Bayesian Networks (Xu et al. 2009) Si modella la dipendenza fra termini in funzione della “word similarity” Ogni concetto ki viene duplicato (ki’) La dipendenza è stimata in funzione della similarità

Dipendenza=f(similarità)

Stima di P(dj/u)

Stima delle dipendenze Word Similarity measures: BOLLEGALA, D.,MATSUO, Y., AND ISHIZUKA,M. 2007. Measuring semantic similarity between wordsusing web search engines. In WWW’07: Proceedings of the 16th International Conference onWorld Wide Web. ACM, New York, 757–766. Google Set: http://labs.google.com/sets

Per Riassumere Q=k1 k2 U’=k1k2 U=k1k2kj k1k2 kj kj kt k2 kj

Esempio Q=k1 k2 U’=k1k2 k1k2 kj k2 kj kj kt U=k1k2kj

Conclusioni I modelli probabilistici rappresentano il problema del retrieval mediante probabilità condizionate (es. P(R/q,d)). Alcuni modelli consento di “rilassare” l’ipotesi di indipendenza fra termini Occorre stimare le probabilità condizionate fra termini (in genere bigrammi o trigrammi P(ti/tj) o P(ti/tj,tk) Fra i metodi per determinare correlazioni fra termini c’è il Latent Semantic Indexing, che è un metodo algebrico per stimare la similarità fra documenti, e fra documenti e query (next lesson!)