P. Ugliengo e G. Ricchiardi A.A Chimica in Rete
Proprietà chimiche e fisiche dei materiali di interesse industriale: origine, tipologie, basi di dati. Dott. Gabriele Ricchiardi Dipartimento di Chimica - NIS Centre of Excellence- NISLabVCO Estratto dalle dispense del Corso “Chimica in Rete”, per la LEZIONE DEL 1/10/2012 Master “Materiali, Matematica e Modelli per la Progettazione e la Produzione”
Chimici in rete Questo è un corso semplice, ma gli argomenti che ospita possono essere molto complessi e molto importanti. Per inquadrarli, iniziamo con alcune domande: Quanto affidabili sono Google e la Wikipedia in campo chimico? Come si osserva e condivide l’immagine 3D di una struttura molecolare? Cosa è veramente una pagina web? Come e dove si trovano informazioni sulle proprietà di molecole e reazioni?
COME VENGONO DISTRIBUITI GLI IPERTESTI La logica CLIENT-SERVER
Come si raggiungono le pagine web in rete La logica CLIENT-SERVER Ogni file su un server ha un URL (Uniform Resource Locator): Protocollo (un “linguaggio” tra client e server) ftp:// Percorso e nome del file da reperire Indirizzo IP (Internet protocol) del server Numerico (es ) o alfanumerico ( Speciali server detti DNS traducono un tipo di indirizzo nell’altro
L'ipertesto è un insieme di testi o pagine leggibili con l'ausilio di un'interfaccia elettronica, in maniera non sequenziale, per tramite di particolari parole chiamate collegamenti ipertestuali (hyperlink o rimandi), che costituiscono un rete raggiata o variamente incrociata di informazioni, organizzate secondo diversi criteri, ad esempio paritetici o gerarchici, in modo da costituire vari percorsi di lettura alternativi. ( Cosa sono gli ipertesti Storia del concetto e delle sue implementazioni: “Home” WWW Files di dati
Organizzare/Condividere collezioni complesse di dati Un ipertesto permette di organizzare e trasmettere dati scientifici di natura diversa: risultati sperimentali, modelli, commenti, bibliografia, files e programmi, ecc… Utilità degli ipertesti - 1 Un classico: la tavola periodica (ad esempio Scarno ma ricco di informazioni: National Institute of Standards and Technology CHEMISTRY WEBBOOK
La logica degli ipertesti pervade la tecnologia… Ipertesti oltre l’HTML I “Desktop” di tutti i sistemi operativi (Windows, Linux, MacOSX ecc.) si presentano come ipertesti e propongono “link” a files, programmi e risorse remote. I sistemi di azionamento e di “help” di tutti gli apparecchi sono ordinati come ipertesti (talvolta HTML, ma più spesso di altro tipo). Un ipertesto formato da “menù” e “link” è indispensabile quando le risorse di visualizzazione sono povere (ad esempio il display dei telefoni cellulari).
internet Utilizzati per ricercare selettivamente informazioni di ogni natura presenti su internet. Motori di ricerca - 1
WEB CRAWLER: è il sistema di raccolta e catalogazione delle informazioni sui siti. Questa avviene attraverso l’uso di ROBOT virtuali: programmi che provano ad accedere a TUTTI gli indirizzi della rete (secondo una qualche strategia statisticamente efficace), seguono TUTTI i LINK e catalogano le pagine in base al loro contenuto, creando un database. Questo database è in continuo aggiornamento, indipendentemente dagli utenti. Motori di ricerca – 2 - Web Crawler Le pagine vengono anche valutate in base alla loro rilevanza, valutata in base al numero di collegamenti che puntano ad essa. Questo criterio è appropriato a valutare le pagine commerciali e di informazione, MA NON QUELLE SCIENTIFICHE. Per esempio, le fonti scientifiche molto autorevoli sono spesso meno “cliccate” di quelle divulgative o fanta-scientifiche. ATTENZIONE: molti siti hanno sviluppato metodi per ingannare i motori di ricerca, in modo da ottenere un’alta valutazione di rilevanza. I motori di ricerca indicizzano la rete e consultano l’”indice” in tempo reale a richiesta dell’utente.
SEARCH ENGINE è il sistema di ricerca vero e proprio, che cerca determinate PAROLE CHIAVE all’interno del database. La ricerca avviene nel momento stesso in cui viene richiesta dall’utente. Vengono vagliate miliardi di pagine web in pochi secondi. Ciò richiede server estremamente potenti ed algoritmi intelligenti. Fornisce una lista di URL ordinata in base alla presunta rilevanza. Il criterio principale per valutare la rilevanza è il numero di link da altri siti alla pagina stessa. I vari motori di ricerca differiscono sia per la metodologia e l’efficacia del sistema di raccolta dei dati, che per la metodologia di ricerca nel database. Gli algoritmi matematici alla base di questi processo sono o SEGRETI oppure BREVETTATI. Motori di ricerca – 3 -Search Engine Vedi anche le voci “search engine” e “web crawler” su Wikipedia
Chi fa i motori di ricerca e perché? Motori di ricerca - 4 Quando si usano i motori di ricerca, è importante ricordare che si tratta di servizi basati su logiche commerciali. I motori di ricerca sono spesati dalla pubblicità e dai servizi a pagamento che ospitano. L’informazione presentata dai motori di ricerca varia a seconda dell’algoritmo utilizzato, della disponibilità del dato (alcuni siti impediscono l’accesso ai motori di ricerca) e di eventuali filtri sul contenuto (censura, “parental control”, ecc.). NOTA PRATICA: se non si trova un dato, non è detto che non esista e che non sia disponibile! Cercatelo con una strategia diversa. ATTENZIONE: I criteri di rilevanza dei motori di ricerca comuni sono spesso inadatti alla classificazione dell’informazione tecnica. Inoltre, i motori danno ALTA RILEVANZA ai link commerciali paganti.
ISI - Web of Knowledge Database bibliografici Il principale canale di diffusione dei risultati della ricerca scientifica è la pubblicazione su riviste, libri, atti di congressi e brevetti. La pubblicazione su queste fonti segue normalmente regole di verifica dell’attendibilità, prevalentemente basate sul meccanismo del “peer review” (vedi oltre). Tutte le pubblicazioni soggette a peer review o altra forma di verifica, sono catalogate da alcuni DATABASE BIBLIOGRAFICI, che facilitano il reperimento dell’informazione. I principali database disponibili nella nostra Università sono: ISI – Web of knowledge (da tutti i computer dell’Università) Sci-Finder (solo dalla biblioteca G.Ponzio, in orari predefiniti)
Ricerca con Google vs. ricerca sistematica Motori di ricerca - 6 La ricerca di una “parola chiave” su un motore di ricerca e su un database sono due cose molto diverse: Il motore di ricerca è utile e potente per esplorare un campo di conoscenze incognito, ma fornisce risultati dalla provenienza e qualità incerte, che risentono delle finalità commerciali. Motore di ricercaDatabase Fonti primarieMolto varie e ricche, ma non note con precisione Note Estensione dei datiElevata ma non notaNota Completezza dei datiNOGarantita Corrispondenza ricerca- risultato Statistica, con “ranking” arbitrario. Deterministica Accuratezza dei datiAltamente variabileGarantita
Usare con efficacia i motori di ricerca Motori di ricerca - 7 Quando si cerca un’informazione, è importante immaginare le probabili caratteristiche della pagina in cui è contenuta. LINGUA: se si cerca una parola italiana, si limita automaticamente la ricerca alle pagine in italiano, che sono pochissime, soprattutto in ambito chimico! “SPELLING”: è importante che sia corretto. Alcuni motori suggeriscono le varianti. ECCESSIVA SPECIFICITA’: espressioni molto specifiche possono dare risultati falsi negativi. ECCESSIVA GENERICITA’: i dati utili restano “sepolti” in un mare di dati inutili che non è possibile analizzare NOTA PRATICA: le ricerche per parole chiave vanno ripetute con vari sinonimi, imparando dalle ricerche precedenti. Confrontare i risultati con quelli ottenuti con ricerche sistematiche.
Valutare la qualità del risultato Motori di ricerca - 8 Quando si cerca un’informazione, è importante immaginare le probabili caratteristiche della pagina in cui è contenuta. l’informazione è pertinente? Chi ha redatto l’informazione? Chi la pubblica (originale o citazione) ? A chi è destinata l’informazione (news, didattica, pubblicità, specialisti)? Quanto accurata è l’informazione? E’ adeguatamente referenziata? ESERCIZIO: ricercare su Google la parola methane ( o altro composto chimico) e rispondere ai quesiti precedenti per i primi 20 risultati.
Cercare una struttura molecolare sul web Motori di ricerca - 9 Quando si cerca una struttura, è importante immaginare il sito che la ospita ed il nome del file che la contiene o una sua parte. DATABASES. Esistono databases di strutture. Ad esempio il database Protein Data Bank ( contiene le strutture di tutte le proteine e gli acidi nucleici note. Molti database sono tuttavia a pagamento (v. Corso “Informatica per la Chimica”) COLLEZIONI tematiche. Esistono siti che presentano collezioni tematiche di strutture, spesso a scopi didattici. (es. cercare “molecules structure” su Google) SINGOLI FILES. Molte strutture si trovano in pagine web specifiche. Possono essere trovate immaginando il probabile nome del file che le descrive (ad es. cerca “adenine.pdb” o “adenine pdb” su Google)
Motori di ricerca più comuni - 10 YAHOO: YAHOO: http// Contiene una sezione chimica : GOOGLE: GOOGLE: http// E’ il più veloce e preciso motore di ricerca. LIVE SEARCH: LIVE SEARCH: http// Recentissimo e potente. Imitazione Microsoft di Google. SCIRUS: SCIRUS: http// Un motore di ricerca specializzato nelle scienze. L’ideale per reperire bibliografia tecnico-scientifica.
User Generated Content - 1 L’evoluzione più recente del Web è l’esplosione del numero di siti che distribuiscono informazioni generate dagli utenti dei siti stessi. Ad esempio: I BLOG I siti sui quali si pubblicano/condividono immagini e video (es. You Tube) l’enciclopedia on line “Wikipedia” Apparentemente, queste forme di condivisione dell’informazione non sono adatte alla trasmissione di informazioni scientifiche, tuttavia: La logica dei BLOG può essere utilizzata per sviluppare quaderni di laboratorio condivisi. La “Wikipedia” sta diventando sempre più accurata v. La voce “User generated content” sulla Wikipedia
UGC – 2 - Wikipedia Wikipedia is a multilingual, Web-based, free content encyclopedia project. Wikipedia is written collaboratively by volunteers; with rare exceptions, its articles can be edited by anyone with access to the Web site. The name is a portmanteau of the words wiki (a type of collaborative website) and encyclopedia. (portale multilingue) en.wikipedia.org (per la versione inglese - CONSIGLIATA) La correttezza e la completezza delle voci della Wikipedia sono variabili e non garantite. Tuttavia, almeno per quanto riguarda la versione inglese, il “tasso di errore” è stato valutato essere comparabile a quello di altre enciclopedie redatte da professionisti.
UGC – 3 - Wikipedia Come può essere accurata? continua revisione da parte degli altri autori (ma non è un vero “peer review”) gli articoli devono contenere riferimenti bibliografici accurati gli articoli vengono valutati in base a criteri di completezza formale ogni voce è collegata alle versioni precedenti ed è accompagnata da una pagina di discussioni. “Wikipedia appeals to the authority of peer-reviewed publications rather than the personal authority of experts. [53] Wikipedia does not require that its contributors give their legal names [54] or provide other information to establish their identity. [55] Although some contributors are authorities in their field, Wikipedia requires that even their contributions be supported by published sources. [53] A drawback of this citation- only approach is that readers may be unable to judge the credibility of a cited source.” [53] [54] [55] [53] Dalla voce “Wikipedia” della Wikipedia…
UGC – 4 – Peer Review “Peer review (known as refereeing in some academic fields) is a process of subjecting an author's scholarly work or ideas to the scrutiny of others who are experts in the field.” Dalla voce “Peer Review” della Wikipedia… (anonymous) Reviewers are asked to evaluate: Originality/novelty of work Interest for the readers of the journal correctness of methodology correctness of results correctness of references
UGC – 5 – Peer Review E’ lo strumento utilizzato da tutte le riviste scientifiche specialistiche (non divulgative) per l’accettazione dei contributi, ed è quindi alla base della credibilità e della qualità delle pubblicazioni scientifiche. Solo le pubblicazioni prodotte attraverso un processo di “peer review” sono catalogate dall’ ISI (Institute for Scientific Information) e divengono accessibili attraverso il “Web of Science” e altri database. Ciascun autore è chiamato regolarmente a valutare in forma anonima il lavoro degli altri esperti nel proprio campo.
Rappresentare le molecole in 3D Un estratto dalle dispense di “Informatica per la Chimica” (Laurea Magistrale MCA)
Struttura tridimensionale In queste lezioni ci occuperemo della struttura tridimensionale a livello atomico di molecole e solidi. Essa è nota, in modo più o meno dettagliato, per la maggior parte degli elementi e dei composti noti. COORDINATE ATOMI VISUALIZZATORE MOLECOLARE REGOLE DI RAPPRESENTAZIONE
Fonti di informazione strutturale 1)Esperimenti di diffrazione da cristalli: Raggi X, neutroni, elettroni con lunghezze d’onda dell’ordine di m sono diffratti dai cristalli. Il diffrattogramma permette di risalire alle posizioni atomiche (Vedi corso “Strutturistica”) 2)Spettroscopie: le spettroscopie vibrazionali danno informazioni strutturali su piccole molecole; L’NMR fornisce informazioni sulle distanze interatomiche anche per molecole complesse. (Vedi corsi di Chimica Fisica) 3)Chimica computazionale:permette di calcolare, con accuratezza variabile, la struttura di qualsiasi modello (Vedi corso “Chimica Computazionale”)
Diffrazione e dati strutturali MISURA: Direzione e intensità dei raggi diffratti Distribuzione spaziale della densità elettronica RX Posizioni dei nuclei Chimica computazionale Risoluzione di strutture (complessa e non deterministica) Simulazione della diffrazione (semplice e deterministica) Buon senso…
Trasmettere e catalogare i dati strutturali Posizioni dei nuclei nel cristallo Come si trasmette questa informazione in modo: 1) Univoco 2) Sintetico 3) Standardizzato ? Molti atomi Simmetria traslazionale Simmetria nella cella Incertezze Altre informazioni… DB
Una scheda tipica (per un solido) 1)Dati per l’identificazione 2)Dati bibliografici 3)Dati strutturali Parametri di cella (a,b,c, , , ) Coordinate degli atomi non legati da relazioni di simmetria (“unità asimmetrica”) Simmetria (simbolo o numero del gruppo spaziale) 4) Altri dati non indispensabili… a b
Un file tipico (molecola) 1)Dati per l’identificazione/bibliografici 2)Coordinate degli atomi 3) Dati opzionali Connettività (legami) 4) PAROLE CHIAVE per il visualizzatore molecolare FORMATI DIVERSI Specifici per ciascun visualizzatore molecolare Alcuni sono standard, riconosciuti da molti programmi
Formati dei files strutturali - XYZ 3 ACQUA O H H O H H 0.96 N° atomi titolo elemento Coordinate cartesiane del nucleo, in Angstrom
Altri Formati COMPND ACQUA AUTHOR ROBERTO BISCEGLIA HETATM 1 O HETATM 2 H HETATM 3 H TER 4 1 CONECT 1 2 CONECT 1 3 END O H H 0.96 PDB Originariamente per molecole biologiche. Molto diffuso. CHIME OK Proprietario ma molto diffuso. CHIME OK MOL (MDL) H2O in formato MDL V O H H M END
Altri Formati - Moldraw TITLE ACQUA CELL COORD O H H 0.96 MOL (Moldraw) Formato proprio del Programma freeware Moldraw (P. Ugliengo). Poco diffuso ma molto utile per modificare e convertire strutture. Non adatto a CHIME (ma Moldraw salva anche formati adatti) ATTENZIONE: non confondere files.mol di Moldraw ed MDL-CHIME! Hanno la stessa estensione ma formati diversi!
Database “free” Protein Data Bank (PDB) Contiene le strutture di proteine, acidi nucleici, e loro complessi con altre molecole. Sistematico: contiene tutte le strutture note. Crystallography Open Database (COD) Un database generico, che fa appello al motto “…the atomic positions in natural or synthetic crystal samples of our Universe are not copyrightable” Reciprocal Net E’ il sito di un’associazione di laboratori di cristallografia. Contiene una collezione di molecole e cristalli comuni. MINCRYST database.iem.ac.ru/mincrystdatabase.iem.ac.ru/mincryst Specializzato in strutture di minerali. Fornisce anche i diffrattogrammi. Utilizza Java per la visualizzazione 3D. Altri:
Fonti cartacee I cristallografi pubblicano da sempre i loro risultati su riviste specializzate. Inoltre, alcuni testi raccolgono collezioni di dati strutturali. fontecontenutodisponibilità Structure Reports (1939-)A,B A:strutture inorganiche e metalli, B: strutture organiche Biblioteca Mineralogia R.W.G. Wyckoff, “Crystal Structures” Composti inorganici Biblioteca Chimica Acta Crystallographica A,B,C La principale e più autorevole rivista di cristallografia generale Biblioteca Mineralogia Sempre più frequentemente, strutture vengono pubblicate anche su riviste non specializzate. Inoltre, il numero di strutture risolte annualmente aumenta esponenzialmente a causa di progressi tecnici e scientifici. Le fonti cartacee cadranno in disuso (ai fini di archivio).
Database elettronici Fin dagli anni sessanta, alcuni gruppi hanno iniziato a catalogare dati strutturali in formato elettronico, attingendo dalle pubblicazioni cartacee o dirattamente ai dati sperimentali. Inizialmente si trattava di databases raccolti in ambito accademico e distribuiti gratuitamente ai fini di ricerca. La raccolta e l’immissione dei dati nei databases sono diventate nel tempo attività molto onerose. Ciò, unito al valore strategico dei databases in molti campi della ricerca industriale (ad es. nel settore farmaceutico) ha contribuito a trasformare la produzione di databases su basi commerciali. Negli anni, si è attuata una concertazione degli sforzi dei vari produttori, specializzatisi nella raccolta di classi di composti. Oggi esistono tre principali database strutturali: ICSD (Inorganic Crystal Structure Database) CSD (Cambridge Structural Database – composti organici) PDB (protein Data Bank – molecole biologiche)
Database elettronici -2 Inorgnic Crystal Structure Database (ICSD) Cambridge Structural Database (CSD) Protein Data Bank (PDB) Produttore FIZ-Karlsruhe, DCambridge Crystallographic Data Centre, UK Brookhaven National Laboratory, USA Contenuto Elementi e strutture inorganiche Strutture organicheProteine, acidi nucleici, virus, ed altre macromolecole di interesse biologico N° strutture (2003) Oltre Distribuzione On-line o su (1) CD- rom On-line o su (parecchi) CD-rom On-line, con parecchi “mirror sites”. Sito web international.de/stnda tabases/databases/ics d.html