DISSIMILARITIES AND MATCHING BETWEEN SYMBOLIC OBJECTS Prof. Donato Malerba Department of Informatics, University of Bari, Italy ASSO.

Slides:



Advertisements
Presentazioni simili
Trieste, 26 novembre © 2005 – Renato Lukač Using OSS in Slovenian High Schools doc. dr. Renato Lukač LinuxDay Trieste.
Advertisements

Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Centro Internazionale per gli Antiparassitari e la Prevenzione Sanitaria Azienda Ospedaliera Luigi Sacco - Milano WP4: Cumulative Assessment Group refinement.
I numeri, l’ora, I giorni della settimana
Cache Memory Prof. G. Nicosia University of Catania
Prof. Stefano Bistarelli
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
Teoria e Tecniche del Riconoscimento
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
A. Oppio, S. Mattia, A. Pandolfi, M. Ghellere ERES Conference 2010 Università Commerciale Luigi Bocconi Milan, june 2010 A Multidimensional and Participatory.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
DG Ricerca Ambientale e Sviluppo FIRMS' FUNDING SCHEMES AND ENVIRONMENTAL PURPOSES IN THE EU STRUCTURAL FUNDS (Monitoring of environmental firms funding.
Frontespizio Economia Monetaria Anno Accademico
Cancer Pain Management Guidelines
1 Innovazione dal punto di vista strategico Francesco Berri Medical Director ASTELLAS PHARMA SpA Bologna 10 Giugno 2011.
Il presente del congiuntivo (the present subjunctive)
Dipartimento di Matematica Applicata Università di Firenze Multiband transport models for semiconductor devices Giornata di lavoro sulle Nanoscienze Firenze.
Programmazione 1 9CFU – TANTE ore
C Consiglio Nazionale delle Ricerche - Pisa Iit Istituto per lInformatica e la Telematica Reasoning about Secure Interoperation using Soft Constraints.
Biometry to enhance smart card security (MOC using TOC protocol)
Costruzione di Interfacce Lezione 10 Dal Java al C++ parte 1
TIPOLOGIA DELLE VARIABILI SPERIMENTALI: Variabili nominali Variabili quantali Variabili semi-quantitative Variabili quantitative.
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
2000 Prentice Hall, Inc. All rights reserved. 1 Capitolo 3 - Functions Outline 3.1Introduction 3.2Program Components in C++ 3.3Math Library Functions 3.4Functions.
SQL Esercitazione per il corso “Basi di Dati” Gabriel Kuper
Laurea specialistica in Scienza e Ingegneria dei Materiali
Magnetochimica AA Marco Ruzzi Marina Brustolon
Queuing or Waiting Line Models
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
DISSIMILARITIES AND MATCHING BETWEEN SYMBOLIC OBJECTS Prof. Donato Malerba Department of Informatics, University of Bari, Italy ASSO.
Chistmas is the most loved holiday of the years. Adults and children look forward to Chistmas and its magical atmosphere. It is traditional to decorate.
VARO SRL LOGISTIC, QUALITY, SERVICE
Le regole Giocatori: da 2 a 10, anche a coppie o a squadre Scopo del gioco: scartare tutte le carte per primi Si gioca con 108 carte: 18 carte.
LHCf Status Report Measurement of Photons and Neutral Pions in the Very Forward Region of LHC Oscar Adriani INFN Sezione di Firenze - Dipartimento di Fisica.
Francesca Pizzorni Ferrarese 05/05/2010
PASTIS CNRSM, Brindisi – Italy Area Materiali e Processi per lAgroindustria Università degli Studi di Foggia, Italy Istituto di Produzioni e Preparazioni.
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
Guardate le seguenti due frasi:
Motor Sizing.
Richard Horton , Lancet 2005.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
Frequency Domain Processing (part 2) and Filtering C. Andrés Méndez 03/04/2013.
21 marzo 2002 (ri-)Avvisi: Giovedi 28 marzo la lezione e sospesa. Nuovo indirizzo di Spedire messaggi e esercizi solo.
Tutor: Elisa Turrini Mail:
Enzo Anselmo Ferrari By Giovanni Amicucci. Di Enzo Questo è Enzo Anselmo Ferrari. Enzo compleanno è diciotto febbraio Enzo muore è quattordici agosto.
DATA ANALYSIS OF 179 BRCA1 OR BRCA2 MUTATED FAMILIES. THE ITALIAN CONSORTIUM FOR HEREDITARY BREAST AND OVARIAN CANCER.
UG40 Energy Saving & Twin Cool units Functioning and Adjustment
EMPOWERMENT OF VULNERABLE PEOPLE An integrated project.
NO WASTE Progetto continuità scuola primaria scuola secondaria Salorno a.s. 2013_
UITA Genève ottobre Comitè du Groupe Professionnel UITA Genève octobre 2003 Trade Union and Tour.
Warehousing Market 25 March 2014 Elena Di Biase. Contesto L’economia europea continua a mostrare segnali di ripresa e gli indicatori economici di fiducia.
A PEACEFUL BRIDGE BETWEEN THE CULTURES TROUGH OLYMPICS OLYMPIC CREED: the most significant thing in the olympic games is not to win but to take part OLYMPIC.
___ ____ ___ __________ _____ ___ _____ _____ ______ ______ _______ ____ _______ _____ _______ Fare clic per modificare stili del testo dello schema Secondo.
Lezione n°27 Università degli Studi Roma Tre – Dipartimento di Ingegneria Corso di Teoria e Progetto di Ponti – A/A Dott. Ing. Fabrizio Paolacci.
Italian 1 -- Capitolo 2 -- Strutture
Scenario e Prospettive della Planetologia Italiana
Castelpietra G., Bassi G., Frattura L.
Final Review Meeting Livorno, Italy January 30-31, 2012
Well and Truly by Roni Horn. Mind map Artist’s name Techniques Life Groupworks Artworks My opinion Her message My artwork inspiried by…
1 Acceleratori e Reattori Nucleari Saverio Altieri Dipartimento di Fisica Università degli Studi - Pavia
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
The Behavioral Insight Team
Span with 6 Stockbridge dampers and 3 warning spheres
The effects of leverage in financial markets Zhu Chenge, An Kenan, Yang Guang, Huang Jiping. Department of Physics, Fudan University, Shanghai, ,
Place Title / Heading Here
Transcript della presentazione:

DISSIMILARITIES AND MATCHING BETWEEN SYMBOLIC OBJECTS Prof. Donato Malerba Department of Informatics, University of Bari, Italy ASSO School Athens, Greece October 6-8, 2003

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 2 COMPUTING DISSIMILARITIES: WHY? Several data analysis techniques are based on quantifying a dissimilarity (or similarity) measure between multivariate data. Clustering Discriminant analysis Visualization-based approaches Symbolic objects are a kind of multivariate data. Ex.: [colour={red, black}] [weight {60,70,80}] [height []1.50,1.60] The dissimilarity measures presented here are among those investigated in the ASSO Project.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 3 A case study Abalone features survey Abalones are members of a large class (Gastropoda) of molluscs having one-piece shells cases of marine crustaceans described by the following attributes:

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 4 The construction of SO DB2SO: facility of the ASSO system to generate (Boolean or Probabilistic) symbolic objects from relational databases. Input: a set of groups or classes C 1, C 2, …, C K a set of n individuals k each of which is described by p variables Y 1, …, Y p and is assigned to one or more groups Output: a set of K symbolic objects e i described by p variables Y 1, …, Y p Example: Nine symbolic objects, one for each interval of: yNumber of rings

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 5 TABLE OF BOOLEAN SYMBOLIC OBJECTS

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 6 COMPUTATION OF DISSIMILARITIES BETWEEN SYMBOLIC OBJECTS Dissimilarity matrix

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 7 The MID property the degree of dissimilarity between crustaceans computed on the independent attributes should be proportional to the dissimilarity in the dependent attribute (i.e., the difference in the number of rings). This property is called monotonic increasing dissimilarity (MID).

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 8 The MID property The degree of dissimilarity between crustaceans computed on the independent attributes should be proportional to the dissimilarity in the dependent attribute (i.e., the difference in the number of rings). This property is called monotonic increasing dissimilarity (MID).

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 9 BOOLEAN SYMBOLIC OBJECTS (BSOS) A BSO is a conjunction of boolean elementary events: [Y 1 =A 1 ] [Y 2 =A 2 ]... [Y p =A p ] where each variable Y i takes values in Y i and A i is a subset of Y i Let a and b be two BSOs: a = [Y 1 =A 1 ] [Y 2 =A 2 ]... [Y p =A p ] b = [Y 1 =B 1 ] [Y 2 =B 2 ]... [Y p =B p ] where each variable Y j takes values in Y j and A j and B j are subsets of Y j. We are interested to compute the dissimilarity d(a,b).

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 10 CONSTRAINED BSOS Two types of dependencies between variables: Hierarchical dependence (mother-daughter): A variable Y i may be inapplicable if another variable Y j takes its values in a subset S j Y j. This dependence is expressed as a rule: if [Y j = S j ] then [Y i = NA] Logical dependence: This case occurs, if a subset S j Y j of a variable Y j is related to a subset S i Y i of a variable Y i by a rule such as: if [Y j = S j ] then [Y i = S i ]

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 11 DISSIMILARITY AND SIMILARITY MEASURES Dissimilarity Measure d: E E R such that d * a = d(a,a) d(a,b) = d(b,a) < a,b E Similarity Measure s: E E R such that s * a = s(a,a) s(a,b) = s(b,a) 0 a,b E Generally: a E: d * a = d * and s * a = s * and specifically, d * = 0 while s * = 1 Dissimilarity measures can be transformed into similarity measures (and viceversa): d= (s) ( s= -1 (d) ) where: (s) strictly decreasing function, and (1) = 0, (0) =

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 12 DISSIMILARITY AND SIMILARITY MEASURES: PROPERTIES Some properties that a dissimilarity measure d on E may satisfy are: 1. d(a, b) = 0 c E: d(a, c) = d(b, c) (eveness) 2. d(a, b) = 0 a = b(definiteness) 3. d(a, b) d(a, c) + d(c, b)(triangle inequality) 4. d(a, b) max(d(a, c), d(c, b))(ultrametric inequality ) 5. d(a, b) + d(c, d) max(d(a, c) + d(b, d), d(a, d) +d(b, c)) (Buneman's inequality) 6. Let (E, +) be a group, then d(a, b) = d(a+c, b+c)(translation invariance ) A dissimilarity function that satisfies proprieties 2 and 3 is called metric. A dissimilarity function that satisfies only property 3 is called pseudo metric or semi- distance.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 13 DISSIMILARITY MEASURES BETWEEN BSOS Author(s) (Year) Notation from the SODAS Package Gowda & Diday (1991) U_1 Ichino & Yaguchi (1994) U_2, U_3, U_4 De Carvalho (1994) SO_1, SO_2 De Carvalho (1996, 1998) SO_3, SO_4, SO_5, C_1 U: only for unconstrained BSOs C: only for constrained BSOs SO: for both constrained and unconstrained BSOs

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 14 GOWDA & DIDAYS DISSIMILARITY MEASURE Gowda & Didays dissimilarity measures for two BSOs a and b: U_1 If Y j is a continuous variable: D(A j, B j ) = D (A j, B j ) + D s (A j, B j ) + D c (A j, B j ) while if Y j is a nominal variable: D(A j, B j ) = D s (A j, B j ) + D c (A j, B j ) where the components are defined so that their values are normalized between 0 and 1: D (A j, B j ) due to position, D s (A j, B j ) due to span, D c (A j, B j ) due to content D(a, b) = AjAj BjBj D DsDs DcDc

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 15 GOWDA & DIDAYS DISSIMILARITY MEASURE Properties: D(a, b) = 0 a = b (definiteness property), No proof is reported for the triangle inequality property

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 16 ICHINO & YAGUCHIS DISSIMILARITY MEASURES Ichino & Yaguchis dissimilarity measures are based on the Cartesian operators join and meet. For continuous variables: A j B j while for nominal variables: A j B j = A j B j Given a pair of subsets (A j, B j ) of Y j the componentwise dissimilarity (A j,B j ) is: (A j, B j ) = A j B j A j B j + (2 A j B j A j B j ) where and A j is defined depending on variable types. AjAj BjBj A j B j

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 17 ICHINO & YAGUCHIS DISSIMILARITY MEASURES (A j,B j ) are aggregated by an aggregation function such as the generalised Minkowskis distance of order q: U_2 Drawback: dependence on the chosen units of measurements. Solution: normalization of the componentwise dissimilarity: U_3 The weighted formulation guarantees that d q (a,b) [0,1]. U_4 The above measures are metrics

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 18 DE CARVALHOS DISSIMILARITY MEASURES A straightforward extension of similarity measures for classical data matrices with nominal variables. where (V j ) is either the cardinality of the set V j (if Y j is a nominal variable) or the length of the interval V j (if Y j is a continuous variable).

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 19 DE CARVALHOS DISSIMILARITY MEASURES Five different similarity measures s i, i = 1,..., 5, are defined: The corresponding dissimilarities are d i = 1 s i. The d i are aggregated by an aggregation function AF such as the generalised Minkowski metric, thus obtaining: SO_1

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 20 DE CARVALHOS EXTENSION OF ICHINO & YAGUCHIS DISSIMILARITY MEASURE A different componentwise dissimilarity measure: where is defined as in Ichino & Yaguchis dissimilarity measure. The aggregation function AF suggested by De Carvalho is: SO_2 This measure is a metric.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 21 THE DESCRIPTION-POTENTIAL APPROACH All dissimilarity measures considered so far are defined by two functions: a comparison function (componentwise measure) and an aggregation function. A different approach is based on the concept of description potential (a) of a symbolic object a. where (V j ) is either the cardinality of the set V j (if Y j is a nominal variable) or the length of the interval V j (if Y j is a continuous variable).

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 22 THE DESCRIPTION-POTENTIAL APPROACH SO_3 SO_4 SO_5 The triangular inequality does not hold for SO_3 and SO_4, which are equivalent. SO_5 is a metric.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 23 DESCRIPTION POTENTIAL FOR CONSTRAINED BSOS Given a BSO a and a logical dependence expressed by the rule: if [Y j = S j ] then [Y i = S i ] the incoherent restriction a of a is defined as: a= [Y 1 =A 1 ]... [Y j-1 =A j-1 ] [Y j =A j S j ]... [Y i-1 =A i-1 ] [Y i =A i ( Y i \S i )]... [Y p =A p ] Then the description potential of a is: A similar extension exists for hierarchical dependencies.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 24 DISSIMILARITY MEASURES FOR CONSTRAINED BSOS The extended definition of description potential can be applied to the computation of the distances SO_3, SO_4 and SO_5. De Carvalho proposed an extension of, so that SO_2 can also be applied to constrained BSO. He also proposed an extension of,,, and in order to take into account of constraints. Therefore, SO_1 can also be applied to constrained BSO. Finally, C_1 is defined as follows: where: If all BSOs are coherent, then the dissimilarity measures do not change.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 25 DISSIMILARITY MEASURES FOR CONSTRAINED BSOS The extended definition of description potential can be applied to the computation of the distances SO_3, SO_4 and SO_5. De Carvalho proposed an extension of, so that SO_2 can also be applied to constrained BSO: where:

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 26 DISSIMILARITY MEASURES FOR CONSTRAINED BSOS where = [Y 1 =A 1 ]... [Y j-1 =A j-1 ] [Y j =A j B j ] … [Y p =A p ] = [Y 1 =B 1 ]... [Y j-1 =B j-1 ] [Y j =A j B j ] … [Y p =B p ]

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 27 DISSIMILARITY MEASURES FOR CONSTRAINED BSOS where = [Y 1 =A 1 ]... [Y j-1 =A j-1 ] [Y j =A j c(B j )] … [Y p =A p ]

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 28 DISSIMILARITY MEASURES FOR CONSTRAINED BSOS where = [Y 1 =B 1 ]... [Y j-1 =B j-1 ] [Y j =c(A j ) B j ] … [Y p =B p ]

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 29 DISSIMILARITY MEASURES FOR CONSTRAINED BSOS De Carvalho proposed an extension of,, in order to take into account of constraints

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 30 DISSIMILARITY MEASURES FOR CONSTRAINED BSOS The previous extension of,, in order to take into account of constraints, can be used in SO_1. Finally, C_1 is defined as follows: where: If all BSOs are coherent, then the dissimilarity measures do not change.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 31 MATCHING Matching is the process of comparing two or more structures to discover their similarities or differences. Similarity judgements in the matching process are directional: They have a referent, a, a prototype or the description of a class of objects subject, b, a variant of the prototype or an instance of a class of objects. Matching two structures is a common problem to many domains, like symbolic classification, pattern recognition, data mining and expert systems.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 32 MATCHING BSOS Generally, a BSO represents a class description and plays the role of the referent in the matching process. a:[color = {black, white}] [height =[170, 200]] describes a set of individuals either black or white, whose height is in the interval [170,200]. Such a set of individuals is called extension of the BSO. The extension is a subset of the universe of individuals Given two BSOs a and b, the matching operators define whether b is the description of an individual in the extension of a. In the ASSO software two matching operators for BSOs have been defined.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 33 CANONICAL MATCHING OPERATOR The result of the canonical matching operator is either 0 (false) or 1 (true). If E denotes the space of BSOs described by a set of p variables Y i taking values in the corresponding domains Y i, then the matching operator is a function: Match: E × E {0, 1} such that for any two BSOs a, b E: a = [Y 1 =A 1 ] [Y 2 =A 2 ]... [Y p =A p ] b = [Y 1 =B 1 ] [Y 2 =B 2 ]... [Y p =B p ] it happens that: Match(a,b) = 1 if B i A i for each i=1, 2,, p, Match(a,b) = 0 otherwise.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 34 CANONICAL MATCHING OPERATOR Examples: District1 = [profession={farmer, driver}] [age=[24,34]] Indiv1 = [profession=farmer] [age=28] Indiv2 = [profession=salesman] [age=[27,28]] Match(District1,Indiv1) = 1 Match(District1,Indiv2) = 0

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 35 CANONICAL MATCHING OPERATOR The canonical matching function satisfies two out of three properties of a similarity measure: a, b E:Match(a, b) 0 a, b E:Match(a, a) Match(a, b) while it does not satisfy the commutativity or simmetry property: a, b E:Match(a, b) = Match(b, a) because of the different role played by a and b.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 36 FLEXIBLE MATCHING OPERATOR The requirement B i A i for each i=1, 2,, p, might be too strict for real-world problems, because of the presence of noise in the description of the individuals of the universe. Example: District1 = [profession={farmer, driver}] [age=[24,34]] Indiv3 = [profession=farmer] [age=23] Match(District1,Indiv3) = 0 It is necessary to rely on a flexible definition of matching operator, which returns a number in [0,1] corresponding to the degree of match between two BSOs, that is flexible-matching: E × E [0,1]

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 37 FLEXIBLE MATCHING OPERATOR For any two BSOs a and b, i) flexible-matching(a,b)=1 if Match(a,b)=true, ii) flexible-matching(a,b) [0,1) otherwise. The result of the flexible matching can be interpreted as the probability of a matching b provided that a change is made in b. Let E a = {b' E | Match(a,b')=1} and P(b | b') be the conditional probability of observing b given that the original observation was b'. Then that is flexible-matching(a,b) equals the maximum conditional probability over the space of BSOs canonically matched by a.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 38 FLEXIBLE MATCHING: AN APPLICATION Credit card applications (Quinlan) Fifteen variables whose names and values have been changed to meaningless symbols to protect the confidentiality of the data. + class variable: positive in case of approval of credit facilities, negative otherwise. Training set: 490 cases 6 rules generated by Quinlans system C4.5

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 39 FLEXIBLE MATCHING: AN APPLICATION Such rules can be easily represented by means of Boolean symbolic objects. Both matching operators can be considered in order to test the validity of the induced rules.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 40 A new dissimilarity measure zFlexible matching is asymmetric. However it is possible to symmetrize it New dissimilarity measure SO_6 zIt is computed as d(a,b) = = 1-(flexible_matching(a,b)+flexible_matching(b,a))/2

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 42 Probabilistic symbolic objects (PSOs) involve modal (probabilistic) variables. Each cell represents the set of weighted values that the variable can take for a symbolic object, where a probabilistic weighting system is adopted. In case of PSO, it isnt possible to use dissimilarity measures for BSO because they dont take the probabilities into consideration and so this determines a notable information loss. Therefore, new dissimilarity measures for PSO are needed. PROBABILISTIC SYMBOLIC OBJECT (PSOS)

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 43 Defining dissimilarity measures for probabilistic symbolic objects Steps: 1.Define coefficients measuring the divergence between two probability distributions Kullback-Leibler divergence Chi-square divergence Hellinger K-divergence Variation distance (*) from them two dissimilarity measures, namely the Renyis and Chernoffs coefficients, are obtained non-symmetric coefficients symmetric coefficient similarity coefficient (*)

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 44 Defining dissimilarity measures for probabilistic symbolic objects Steps: 2.Symmetrize the non symmetric coefficients m(P,Q)= m(Q,P) + m(P,Q) 3.Aggregate the contribution of all variables to compute the dissimilarity between two symbolic objects zPSO Dissimilarity measuresPSO Dissimilarity measures

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 45 Mixture SO zSome SOs can be described by both non- modal and modal variables zThey are neither BSOs nor PSOs zWhat dissimilarity measure, then? zIn ASSO it has been proposed to combine the result of two dissimilarity measure, one for modal and the other for non-modal. zCombination can be either additive or multiplicative. zThis possibility should be taken with great care!!!

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 46 REFERENCES Esposito F., Malerba D., V. Tamma, H.-H. Bock. Classical resemblance measures. Chapter 8.1 Esposito F., Malerba D., V. Tamma. Dissimilarity measures for symbolic objects. Chapter 8.3 Esposito F., Malerba D., F.A. Lisi. Matching symbolic objects. Chapter 8.4 in H.-H. Bock, E. Diday (eds.): Analysis of Symbolic Data. Exploratory methods for extracting statistical information from complex data. Springer Verlag, Heidelberg, D. Malerba, L. Sanarico, & V. Tamma (2000). A comparison of dissimilarity measures for Boolean symbolic data. In P. Brito, J. Costa, & D. Malerba (Eds.), Proc. of the ECML 2000 Workshop on Dealing with Structured Data in Machine Learning and Statistics, Barcelona. D. Malerba, F. Esposito, V. Gioviale, & V. Tamma. Comparing Dissimilarity Measures in Symbolic Data Analysis. Pre-Proceedings of EKT-NTTS, vol. 1, pp

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 47 REFERENCES D. Malerba, F. Esposito, M. Monopoli (2002). Estrazione e matching di oggetti simbolici da database relazionali. Atti del Decimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati SEBD2002, D. Malerba, F. Esposito, & M. Monopoli (2002). Comparing dissimilarity measures for probabilistic symbolic objects. In A. Zanasi, C. A. Brebbia, N.F.F. Ebecken, P. Melli (Eds.) Data Mining III, Series Management Information Systems, Vol 6, 31-40, WIT Press, Southampton, UK. E. Diday, F. Esposito (2003). An Introduction to Symbolic Data Analysis and the Sodas Software, Intelligent Data Analysis, 7, 6, (in press). Other project reports

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 48 METHOD DISS Dissimilarity measures between both BSOs and PSOs. Input: Asso file of SOs Output for dissimilarities: Report + Asso file with dissimilarity matrix Developer: Dipartimento di Informatica, University of Bari, Italy. DI method Report file

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 49 TWO USE CASE DIAGRAMS Run the DISS method and generate a new ASSO file with a dissimilarity matrix User Create a new chaining with the new ASSO file Create an ASSO chaining with the DISS method Set up parameters of the DISS method Run the DISS method and generate a report file User View report file Create an ASSO chaining with the DISS method Set up parameters of the DISS method Run VDISS and visualize the dissimilarity measure, the bi-dimensional mapping & the graphical representation

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 50 PARAMETER SETUP The user can select a subset of variables Y i on which the dissimilarity measure or the matching operator has to computed.

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 51 PARAMETER SETUP The user can select a number of parameters. Dissimilarity measure Name of the new ASSO file ? combine ?

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 52 OUTPUT SODAS FILE The output ASSO file contains both the same input data and an additional dissimilarity matrix. The dissimilarity between the i-th and the j-th BSO is written in the cell (entry) (i, j) of the matrix. Only the lower part of the dissimilarity matrix is reported in the file, since dissimilarities are symmetric. abalone output file

OUTPUT REPORT FILE The report file is organized as follows: Output report file

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 54 Output Visualization of the dissimilarity table

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 55 Output Visualization of a line graph of dissimilarities Each line represents the dissimilarity between a given SO and the subsequent SOs in the file The number of lines in each graph is equal to the number of SOs minus one

Fare clic per modificare lo stile del titolo dello schema zFare clic per modificare gli stili del testo dello schema ySecondo livello xTerzo livello Quarto livello –Quinto livello 56 Output Visualization of a scatterplot of Sammon s nonlinear mapping into a bidimensional space