La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Giorgio Pedrazzi CINECA Torino, 20 febbraio 2003.

Presentazioni simili


Presentazione sul tema: "Giorgio Pedrazzi CINECA Torino, 20 febbraio 2003."— Transcript della presentazione:

1 Giorgio Pedrazzi CINECA Torino, 20 febbraio 2003

2 conoscenza grandi dimensioni associazioni nascoste Processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite lapplicazione di algoritmi che individuano le associazioni nascoste tra le informazioni e le rendono visibili. Che cosè il Data Mining

3 volume valore dati informazione conoscenza decisione Quantità di dati Natura dei dati Rapida evoluzione del mercato Inadeguatezza degli strumenti tradizionali Perché sono necessari strumenti di Data Mining

4 Dati ? ? ? ? STRUMENTI STATISTICI DATA RETRIEVAL DATA MINING analisi descrittive analisi esplorative Problemi: quantità di dati (records, variabili) tipo di dati (qualitativi, testi) missing interpretazione risultati query Problemi: tempi di risposta inadeguatezza nellindividuare associazioni conoscenza

5 Statistica tradizionale Statistica inferenziale Statistica descrittiva Sono i due campioni identicamente distribuiti ? Inferenze e previsioni Descrizione dei dati

6 Il processo di estrazione di conoscenza (KDD) Database / Data Warehouse Target data Selection / Sampling Transformed data Transformation and reduction Cleaned data Preprocessing and cleaning Patterns / models Data Mining Knowledge Visualization / Evaluation

7 clienti Segmentazione della clientela agenzie stampa Analisi testuale TEXT MINING vendite Analisi delle associazioni brevetti Technology Watch DATA MINING Clustering Reti neurali Alberi di decisione Associazioni Segmentazione Classificaz./ Previsione Tecniche e tradizionali ambiti applicativi del Data Mining

8 Perché il Data mining in biologia Esplosione della informazione biologica in forme diverse The Human Genome Project: più di 22.1 miliardi di basi; parecchie decine di migliaia di geni sono stati identificati a partire dalla sequenza genomica. Lanalisi delle sequenze mostrano 38,000 geni confermati dallevidenza sperimentale. Swiss Prot Database: più di 10,000 proteine Pubmed: più di 12,000,000 abstracts biologici, ed il loro numero sta ancora aumentando! ………

9 Relazioni complesse tra i dati biologici Perché il Data mining in biologia

10 Lindustria biofarmaceutica genera più dati chimici e biologici di quanti ne riesca a trattare. Come risultato di tutto ciò la creazione di nuovi composti farmaceutici è spesso un lungo ed arduo lavoro.

11 Perché il Data mining in biologia La biologia rappresenta un campo di applicazione interessante per il Data Mining con un notevole disponibilità di dati e di problemi complessi. I metodi tradizionali, a volte, non sono sufficienti per analizzare una simile quantità di dati. Le due discipline si possono avvantaggiare lun laltra nella collaborazione.

12 KDD per la Bioinformatica Genomic Literature Experimental Integrated Data Repository Prepared data Dati Normalization Curation Validation … Clustering SVMs ILP Classification … Patterns Evaluation Visualization Conoscenza Expert Knowledge Sampling Expressed Genes Homologs … Spesso non esplicitament e implementata

13 Selezione dei dati Interrogazione dei databases pubblici (Bioperl). Genbank. Stanford microarray database. SWISS-Prot. …. Dati raccolti in esperimenti Integrazione delle diverse fonti di dati

14 Preparazione dei dati ( data cleansing ) Rimozione dei dati non validi, ridondanti o privi di utilità. Trattamento dei dati mancanti. Selezione delle variabili Trasformazione dei dati. –Dicotomizzazione, normalizzazione, riproporzionamento, etc.

15 Alcune tecniche di Data Mining Clustering (classificazione non supervisionata) Text Mining (Medmole) Regole di associazione Classificazione (Alberi di decisione) Visualizzazione dei risultati Altre tecniche: analisi delle serie temporali, analisi delle sequenze

16 Il punto di partenza di tutti gli algoritmi di clustering è un modello che prescinde completamente alla natura dei dati impiegati e dalle specifiche problematiche disciplinari. Si fa riferimento in generale ad una matrice dei dati contenente informazioni su N oggetti (casi o osservazioni; righe della matrice) specificate dai valori assegnati a V variabili (colonne della matrice) Clustering

17 Scelta delle variabili Indice di somiglianza Metodo di formazione dei gruppi Determinazione dei criteri di valutazione Clustering

18 variabile osservazione Rappresentazione formale del dato in forma matriciale Clustering

19 Dalla matrice dei dati originaria (di dimensione NxV) si passa ad una matrice di distanze o di similarità fra casi (di dimensione NxN) Distanze dalloggetto j Distanze dalloggetto i Clustering

20 Una volta stabiliti i criteri per la misura del grado di similarità/diversità, è possibile sviluppare molteplici algoritmi per la classificazione dei casi. Per variabili di tipo quantitativo si calcolano misure di distanza. Per variabili di tipo qualitativo si calcolano misure di similarità. Clustering

21 Distanza euclidea (di norma 2) Distanza di Manhattan (o a blocchi) Misure di distanza Alcuni esempi di misure di distanza Clustering

22 Esempi di misura di distanza x = (5,5) y = (9,8) Distanza euclidea: d(x,y) = sqrt( ) = 5 Distanza di Manhattan: d(x,y) = 4+3 = Clustering

23 Misure di similarità x k : x j : Jaccard:d(i,k)= (a 11 ) / (a 11 + a 10 + a 01 ) Condorcet:d(i,k)= a 11 / [a (a 10 + a 01 )] Dice bis:d(i,k)= a 11 / [a (a 10 + a 01 )] a 11 a 10 a 01 a Numero di 1 corrispondenti Clustering

24 gerarchico Clustering partitivo K-medie, Som, …Analisi relazionale ………….. Tecniche di Clustering

25 Clustering partitivo Clustering gerarchico E E1 E2 E3 E4 E7 E8 E E1 E2 E7 E8 Tecniche di Clustering

26 Gene Expression clustering Per gene (rat spinal cord development, yeast cell cycle): Wen et al., 1998; Tavazoie et al., 1999; Eisen et al., 1998; Tamayo et al., 1999.et al., 1998; et al., 1999;et al., 1998; et al., 1999 Per condizione o tipo di cella Golub, et al. 1999; Alon, et al. 1999; Perou, et al. 1999; Weinstein, et al Cheng, ISMB 2000.et al. 1999;et al. 1999; et al. 1999;et al ISMB 2000.

27 Le tecniche di clustering sono utilizzate anche nelle applicazione di Text Mining. Medmole è unapplicazione di Text Mining sugli abstract di Medline Text Mining (Medmole)

28 Results example: RET BRCA1

29 Cluster Results example: RET BRCA1

30 ClusterKeywords Results example: RET BRCA1

31

32 Regole di associazione Dati del problema: –I insieme di items Prodotti venduti da un supermercato –Transazione T: insieme di items t.C. T i Oggetti acquistati nella stessa transazione di cassa al supermercato –Base di dati D: insieme di transazioni

33 Regole di associazione Regola di associazione X Y X,Y I Supporto S: #trans. contenenti X Y #trans. in D –rilevanza statistica Confidenza C: #trans. contenenti X Y #trans. contenenti X –significatività dellimplicazione

34 Regole di associazione tra Sequenze proteiche, Struttura e Funzione PROSITE Sequence Motif Database SWISS-PROT Protein Sequence Database PDB Protein 3D Structure Database

35 Classificazione Quale classe? Modello di classificazione Nuovi dati

36 Classificazione Dati del problema: –insieme di classi –insieme di oggetti etichettati con il nome della classe di appartenenza (training set) Problema: –trovare il profilo descrittivo per ogni classe, utilizzando le features dei dati contenuti nel training set, che permetta di assegnare altri oggetti, contenuti in un certo test set, alla classe appropriata

37 Costruzione del modello Training Data Metodo di classificazione IF Color = Yellow OR Shape = Conical or … THEN Class = good Modello

38 Valutazione del modello Testing Data Modello di classificazione Quanto è accurato il modello ? IF Color = Yellow OR Shape = Conical or … THEN Class = good

39 Applicazioni Classificazione tendenze di mercato identificazione automatica di immagini identificazione del rischio in mutui/assicurazioni efficiacia trattamenti medici

40 Alberi di decisione Veloci rispetto agli altri metodi Facili da interpretare tramite regole di classificazione Possono essere convertiti in interrogazioni SQL per interrogare la base di dati

41 Esempio Eta` < 26 AltoTipo auto BassoAlto ETA` CLASSE RISCHIO basso alto basso TIPO AUTO familiare sportiva utilitaria sportiva familiare sino sportiva familiare Alto utilitaria

42 Costruzione albero Due fasi: –fase di build: si costruisce lalbero iniziale, partizionando ripetutamente il training set sul valore di un attributo, fino a quando tutti gli esempi in ogni partizione appartengono ad una sola classe –fase di pruning: si pota lalbero, eliminando rami dovuti a rumore o fluttuazioni statistiche

43 Esempio di albero di decisione creato per la classificazione di tessuti in cancerosi o non cancerosi utilizzando come variabili lespressione genica dei geni rilevanti nel B-cell Lymphoma

44 Altri metodi di classificazione Reti neurali Support Vector Machine Naive Bayes ……

45 Visualizzazione Visualizzazione dei cluster Coordinate parallele Evoluzione Temporale

46 Alcuni libri introduttivi 1. Bioinformatics – the machine learning approach by P. Baldi & S. Brunak, 2 nd edition, the MIT press, Data mining – concepts and techniques by J. Han & M. Kamber, Morgan Kaufmann publishers, Pattern classification by R. Duda, P. Hart and D. Stork, 2 nd edition, john Wiley & sons, 2001


Scaricare ppt "Giorgio Pedrazzi CINECA Torino, 20 febbraio 2003."

Presentazioni simili


Annunci Google