Stato dell’Infrastruttura Hardware e Software del Sistema Informativo INFN Barbara Martelli INFN - CNAF
Team del CNAF Coordinamento: Barbara Martelli Guido Guizzunti: sistemi operativi e cluster, macchine virtuali, software di gestione orologi marcatempo (VamWeb), software di gestione presenze, gestione software TLQSincro per mandato elettronico Claudio Galli: amministrazione Oracle Applications e Oracle database Marco Canaparo: amministrazione portale utente PHP, gestione software presenze 20% Massimo Donatelli per supporto sistemistico, hardware e gestione del backup 23/06/2011 Incontro con Responsabili Amministrativi
Migrazione (1) Il primo aprile 2011 sono iniziate le attivita’ di migrazione del sistema contabile da piattaforma SUN Solaris a piattaforma Linux RedHat Dopo un paio di giorni di assestamento durante i quali sono stati necessari interventi di ottimizzazione sui sistemi Oracle, il sistema e’ tornato completamente funzionante Dalle prove effettuate al CNAF si evince che il migloramento di performance e’ stimabile in un fattore 5 Grazie alle patch installate durante le operazioni di migrazione non e’ piu’ necessario utilizzare Jinitiator, e’ sufficiente una Java Virtual Machine Standard 23/06/2011 Incontro con Responsabili Amministrativi
Migrazione (2) Risparmio economico: Hardware piu’ economico (semplici biprocessori usati comunemente nei centri di calcolo) Risparmio di circa 100k euro annuali per manutenzione hardware Software open source ben conosciuto all’interno dell’INFN Risparmio di circa 50k euro annuali per manutenzione sistemistica che da Software Design passa al CNAF Gestione del sistema (Oracle Database, Oracle Applications) passa al CNAF Risparmio di circa 50k euro annuali per amministrazione Oracle che da Software Design passa al CNAF 23/06/2011 Incontro con Responsabili Amministrativi
Cluster RedHat (contabilita’ di produzione) Alta affidabilita’: tutte le componenti sono ridondate Failover: in caso di fallimento di un server, il servizio viene automaticamente reso disponibile su uno dei server ancora attivi Tollerati fino a 3 server guasti Aggiungere macchine portale 23/06/2011 Incontro con Responsabili Amministrativi
Ambienti disponibili Ambiente di produzione Oracle DB, Oracle Applications, portale utente, software di gestione presenze Backup notturno (disco e nastro) con possibilita’ di recupero dei dati fino a 30 gg nel passato Ambiente di test preproduzione contabilita’ Identico all’ambiente di produzione (ma installato su un minor numero di server) Utilizzato per test dei rilasci software SD, patch di sistema operativo, patch Oracle Ambiente di sviluppo SD Ambiente di test SD Ambiente di test Mandato Elettronico + Formazione Utilizzato per corsi di formazione e test mandato elettronico Totale di 33 server (virtuali e fisici), 5 istanze Oracle E-BusinessSuite, 7 database Oracle 23/06/2011 Incontro con Responsabili Amministrativi
Possibilita’ di istanza per reportistica Allo studio un’ipotesi evolutiva per creare un database server readonly dedicato alla reportistica Uno dei server che in condizioni di assenza di guasti non viene utilizzato, potrebbe ospitare un istanza DB readonly allineata con il database principale Possibilita’ di effettuare reportistica su dati “freschi” senza impattare sul server della contabilita’ 23/06/2011 Incontro con Responsabili Amministrativi
Monitoraggio Il sistema informativo e’ stato inserito nel monitoring generale del CNAF (CNAF Dashboard), viene quindi controllato dal turnista h24 durante normali turni di monitoraggio del centro di calcolo, svolti da tutto il personale CNAF. 23/06/2011 Incontro con Responsabili Amministrativi
Monitoraggio (2) Utilizzati due sistemi di monitoring: Nagios Sistema utilizzato per tutte le risorse del calcolo CNAF Monitoring sistemi operativi, hardware, backup Invio di allarmi via email e SMS in caso di errore Oracle Grid Console Specifica per monitoraggio di oggetti Oracle Consente un controllo molto fine di tutti gli aspetti del funzionamento e configurazione di un Oracle Database e Oracle EBS Invio allarmi via email (a breve anche via SMS) 23/06/2011 Incontro con Responsabili Amministrativi
Monitoraggio (3) Nagios 23/06/2011 Incontro con Responsabili Amministrativi
Monitoraggio (4) Oracle Grid Console 23/06/2011 Incontro con Responsabili Amministrativi
Gestione Rilasci Software (1) Attualmente le procedure di rilascio del software sono inadeguate Rilasci molto ravvicinati, sviluppati velocemente, messi in produzione senza un’adeguata fase di test Procedure non strutturate, che possono facilmente indurre in errore chi gestisce la messa in produzione Stiamo mettendo a punto, insieme ad SD, una procedura ben definita per la gestione delle release Tracciamento delle modifiche fatte nel tempo e possibilita’ di “rollback” (ripristino versioni precedenti del software) Definizione di procedure standard per il passaggio del software da SD a INFN (formati dei file, documentazione, script di installazione) Definizione di procedure di test che garantiscano la messa in produzione di modifiche che non introducano ulteriori bachi 23/06/2011 Incontro con Responsabili Amministrativi
Gestione Rilasci Software (2) Idea di massima: Effettuare rilasci in produzione di patch cumulative (per esempio tutti i bachi e le migliorie delle ultime 2 settimane) Minimizza il numero di interventi in produzione Scegliamo insieme un giorno della settimana in cui effettuare i rilasci in produzione Ovviamente saranno gestite le eccezioni dei rilasci urgenti, ma dovremo lavorare perche’ restino effettivamente eccezioni Testare il software nell’ambiente di test prima di rilasciarlo in produzione Necessaria collaborazione degli utenti amministrativi per effettuare I test 23/06/2011 Incontro con Responsabili Amministrativi
Inserimento Sezioni nel Sistema Presenze Il gruppo CNAF si sta predisponendo per accogliere le sezioni mancanti all’interno del sistema di gestione dell presenze Abbiamo terminato un documento tecnico riguardante l’installazione e la configurazione degli orologi marcatempo Sara’ inviato alla CCR in modo da favorire un coordinamento dei vari servizi di calcolo Pianificazione entrata in esercizio delle varie strutture (riunione del 5 luglio) 23/06/2011 Incontro con Responsabili Amministrativi
Problemi notificati dalle amministrazioni Contabilita’ (1) Timeout di connessione troppo breve Si tratta di una questione di configurazione facilmente modificabile Il timeout esiste per aumentare la sicurezza del sistema: nell’eventualita’ che una finestra Oracle Applications con login effettuato sia dimenticata aperta e utilizzata da qualcuno non autorizzato Discutiamone e concordiamo un valore che possa soddisfare tutti Lentezza nella numerazione dei mandati Segnalata da Milano Bicocca 23/06/2011 Incontro con Responsabili Amministrativi
Problemi notificati dalle amministrazioni Contabilita’ (2) Necessita’ di doppio collegamento al primo login Si tratta di un problema di sessione mantenuta sui browser Accertarsi di aver memorizzato il link indirizzato dal sito web del sistema informativo https://sysinfo-c2.cnaf.infn.it:8099/OA_HTML/AppsLocalLogin.jsp Non devono essere memorizzati nei segnalibri link contenenti informazioni aggiuntive come ad esempio: https://sysinfoc2.cnaf.infn.it:8099/OA_HTML/OA.jsp?OAFunc=OAHOMEPAGE&akRegionApplicationId=0&navRespId=50694&navRespAppId=90000&navSecGrpId=0&transactionid=1659612549&oapc=2&oas=ZDzX8q4Lsf1_JlWyk3quuQ.. Accertarsi di cliccare su “disconnetti” quando si esce dalle Oracle Applications Se il problema persiste, e’ necessario fare un’analisi piu’ approfondita: contattate sysinfo.cnaf@lists.infn.it 23/06/2011 Incontro con Responsabili Amministrativi
Problemi notificati dalle amministrazioni Contabilita’ (3) Accesso alle Oracle Applications da postazioni non INFN Necessario per lavorare da casa o in trasferta presso sedi non INFN Il sistema Oracle non puo’ essere accessibile liberamente dall’esterno a causa del fatto che non puo’ esser facilmente aggiornato, e’ quindi esposto a possibili buchi di sicurezza Necessario trovare soluzioni basate su VPN Per l’utente significa avviare un client VPN con un semplice “click” Per i servizi calcolo significa installare un piccolo software su ogni PC che intende connettersi dall’esterno Possibili opzioni: Configurazione delle VPN delle singole sezioni in modo che gli indirizzi IP del sistema Oracle Applications siano accessibili Necessita del coordinamento di CCR Creazione di una VPN al CNAF dedicata al sistema informativo Necessita del coinvolgimento del gruppo calcolo e reti del CNAF o in alternativa dell’installazione da parte del gruppo sistema informativo di un apparato dedicato In entrambi i casi e’ necessario avviare una discussione in ambito CCR 23/06/2011 Incontro con Responsabili Amministrativi
Problemi notificati dalle amministrazioni Contabilita’ (4) E’ possibile evitare l’apparizione della console Java all’avvio delle Oracle Applications? Si’, ma non si tratta di una configurazione del server CNAF, bensi’ dei PC delle amministrazioni Su ogni PC e’ necessario accedere a Pannello di Controllo -> Programmi -> Java -> Avanzate -> Console Java e cliccare su Nascondi Console 23/06/2011 Incontro con Responsabili Amministrativi
Problemi notificati dalle amministrazioni Gestione Presenze (1) Talvolta la connessione si interrompe all’improvviso o resta “appesa” Il problema era causato da un baco dell’applicazione a causa del quale alcune connessioni non venivano rilasciate al termine del lavoro dell’utente. L’applicazione e’ configurata per consentire un massimo di 50 connessioni contemporanee per ogni modulo, il fatto che la connessione non venisse liberata causava una “sedimentazione” di risorse allocate e non utilizzate. Una volta raggiunto il limite di 50 connessioni, il sistema si bloccava ed era necessario un riavvio del servizio. Quest’azione causava l’interruzione di tutte le connessioni utente attive in quel momento. Problema risolto con l’ultimo rilascio in produzione Il servizio presenze non verra’ piu’ riavviato durante il giorno Nel caso che il sintomo persista, contattateci sulla lista sysinfo.cnaf@lists.infn.it 23/06/2011 Incontro con Responsabili Amministrativi
Problemi notificati dalle amministrazioni Gestione Presenze (2) Lentezza nell’autorizzazione dei giustificativi Il problema e’ causato dal fatto che l’autorizzazione di piu’ giustificativi e’ implementata con l’invio in serie al database di un comando per ogni giustificativo: tempo per l’approvazione di un giustificativo ~ 5 sec tempo per l’apporvazione di n giustificativi ~ n * 5 sec Il codice dovrebbe essere ottimizzato in modo da inviare al database un solo comando contenente l’approvazione di tutti i giustificativi richiesti in un’unica istruzione, in modo che il DB Oracle possa ottimizzare l’esecuzione La questione e’ stata presa in carico da SD, ma e’ stata classificata come “miglioria” e schedulata in bassa priorita’ 23/06/2011 Incontro con Responsabili Amministrativi
Domande? 23/06/2011 Incontro con Responsabili Amministrativi
Backup Slides 23/06/2011 Incontro con Responsabili Amministrativi
Oracle Grid Console: grafici utilizzo Oracle Applications 23/06/2011 Incontro con Responsabili Amministrativi
Oracle Grid Console: grafici performance Oracle Applications 23/06/2011 Incontro con Responsabili Amministrativi
Oracle Grid Console: grafici performance Oracle Applications 23/06/2011 Incontro con Responsabili Amministrativi
Grafico utilizzo giornaliero di Oracle Applications 23/06/2011 Incontro con Responsabili Amministrativi