email: mario.mastrangelo@uniroma2.it ESERCITAZIONE R 12,19 marzo 2012 Mario Mastrangelo email: mario.mastrangelo@uniroma2.it
Preparazione R 1 – Installazione software e pacchetti Il software R è liberamente scaricabile dal sito http://cran.r-project.org/ . R è un software che utilizza pacchetti; una volta installato sul proprio pc, esso è dotato di alcune funzionalità base che possono essere ampliate aggiungendo appositi pacchetti. I pacchetti vanno installati sul proprio pc scaricandoli da appositi server. Se ad esempio volessimo installare il pacchetto Rcmdr, ovvero l’interfaccia grafica di R, dovremmo seguire la procedura seguente: 1
Preparazione R 2 – Installazione pacchetti 3 2
Preparazione R 3 – Caricamento pacchetti I pacchetti a questo punto sono installati sul pc ma NON sono ancora disponibili, perché vanno caricati sul software. Tale caricamento può avvenire secondo la seguente procedura : 2 1
Preparazione R 4 – Caricamento pacchetti, apertura/chiusura Oppure con la seguente istruzione tramite linea di comando: Il pacchetto e tutte le sue funzionalità sono ora effettivamente utilizzabili da R. Quando si chiude una sessione di lavoro, i pacchetti caricati vengono “persi”, nel senso che all’avvio di una nuova sessione, se necessario, dovranno essere ricaricati. Non dovranno essere invece reinstallati, perché dopo la prima installazione sono ormai in locale, cioè sono presenti sul pc. Quando si chiude una sessione di lavoro, cliccando sulla X in alto a destra, R chiede se l’area di lavoro deve essere salvata o meno. Salvare un’ area di lavoro significa salvare tutti gli oggetti contenuti in tale area al momento del salvataggio. Solo in questo caso, aprendo una nuova sessione di lavoro tali oggetti saranno disponibili per ulteriori elaborazioni.
Preparazione R 5 – Apertura/chiusura, salvataggio istruzioni R consente anche di salvare una sessione di lavoro dandogli un nome specifico A partire dal menù File. Come si vede da tale menù, in ogni momento la sessione salvata potrà essere ricaricata. La voce Salva cronologia permette invece di salvare in un file txt tutti i comandi eseguiti nel corso dell’attuale sessione di lavoro, e può essere molto utile per avere sempre traccia delle elaborazioni svolte.
Gestione dati 1 – Caricamento dati Si suppone che il file txt contenente il dataset sia nella directory di interfaccia sist. Operativo-R, che è quella fornita dal comando getwd(). Altrimenti nel comando read.table va indicato il path assoluto del file (es. “C:/Users/Mario/Desktop/Base.txt”). Il comando read.table importa il file e costruisce un oggetto R chiamato dataframe, costituito da un insieme di variabili. Scrivendo header=T diciamo ad R che la prima riga contiene i nomi delle variabili, mentre con sep=“\t” indichiamo il separatore adeguato per questo tipo di file (nel caso di file .csv, si avrebbe sep=“;” ). Il comando str(Dati) mostra il contenuto del dataframe.
Gestione dati 2 – Conversione variabili quantitative in fattori Le variabili del dataframe sono tutte numeriche perché abbiamo importato in effetti solo numeri. Di fatto la sola variabile ETA’ è quantitativa, le altre sono qualitative codificate con numeri per comodità di creazione e gestione del dataset. Occorre dunque operare la conversione , variabile per variabile. Con l’espressione Dati$SESSO si indica la variabile SESSO del dataframe Dati. La riga di comando di questa slide è interpretabile così: la variabile SESSO del dataframe Dati viene sostituita con l’output del comando factor applicato alla stessa variabile. All’interno di tale comando indichiamo nell’ordine le etichette che vanno assegnate ai numeri che sono in partenza le modalità delle variabili, per cui in questo caso ad 1 sarà associata la lettera “M”, a 2 la lettera “F”.
Gestione dati 3 – Conversione variabili quantitative in fattori Il risultato è visualizzabile ancora con il comando str(Dati). All’interno del dataframe la variabile SESSO è ora un fattore (una variabile qualitativa) a 2 livelli, ovvero a 2 modalità, M ed F . Come si può osservare il contenuto della variabile è ancora una sequenza di 1 e 2, ma ora R sa che tali numeri corrispondono in effetti alle due modalità suddette.
Gestione dati 4 – Conversione variabili quantitative in fattori La precedente operazione si può fare anche tramite interfaccia grafica. Il comando library(Rcmdr) apre l’interfaccia. Successivamente occorre selezionare il dataframe su cui lavorare, seguendo la procedura indicata
Gestione dati 5 – Conversione variabili quantitative in fattori Come si vede in basso, il rettangolo a fianco della scritta Set di dati: contiene il nome del dataframe selezionato, scritto in blu. Ciò significa che esso è il dataset attivo.
Gestione dati 6 – Conversione variabili quantitative in fattori 1 La conversione di una variabile quantitativa in un fattore si opera seguendo la procedura a fianco 2
Gestione dati 7 – Conversione variabili quantitative in fattori 3 Il risultato è visibile mediante il comando str(Dati): 4 La precedente procedura è del tutto equivalente all’istruzione tramite riga di comando: