La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ANNUNCI ORARI: 25/4 e 2/5: niente lezione RICEVIMENTO: Lunedi 16-18, ufficio di Povo, SOLO SU APPUNTAMENTO piano.

Presentazioni simili


Presentazione sul tema: "ANNUNCI ORARI: 25/4 e 2/5: niente lezione RICEVIMENTO: Lunedi 16-18, ufficio di Povo, SOLO SU APPUNTAMENTO piano."— Transcript della presentazione:

1 ANNUNCI ORARI: 25/4 e 2/5: niente lezione RICEVIMENTO: Lunedi 16-18, ufficio di Povo, SOLO SU APPUNTAMENTO piano delle lezioni di Informatica Umanistica D online.

2 INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Cosa si intende per parola? Informazioni lessicali: parti del discorso Informazioni lessicali: morfologia

3 LESSICOGRAFIA E COMPUTER: ARGOMENTI DEL CORSO I dizionari e la loro storia Conoscenza lessicale: parole morfologia collocazioni semantica Lessicografia Dizionari elettronici Lessici elettronici: WordNet

4 LESSICO E DIZIONARIO LESSICO: insieme di parole di una lingua e delle informazioni lessicali su queste parole DIZIONARIO: una descrizione di questo lessico (Differenza simile a quella tra struttura di una lingua e grammatica)

5 INFORMAZIONI LESSICALI Proprieta foniche / grafiche Informazioni sintattiche (parti del discorso) Informazioni morfologiche Significato

6 QUALI SONO LE PAROLE DI UNA LINGUA? = quante parole ha una lingua? = che lemmi ci devono essere in un dizionario?

7 QUALI SONO LE PAROLE DI UNA LINGUA? 25 lemmi dal Concise Oxford Dictionary: wannabe, want, wanting, wanton, wapentake, wapiti, War., war, waratah, war baby, warble 1, warble 2, warble fly, warbler, warby, war chest, war crime, war cry, ward, -ward

8 JACKSON: TRE SENSI DI WORD (PAROLA) ORTHOGRAPHIC WORD: una sequenza di lettere circondata da spazi PHONEMIC WORD: una sequenza di suoni (fonemi) LEXEME: una unita del lessico, a cui puo corrispondere una voce distinta in un dizionario

9 DEFINIZIONE TRADIZIONALE DI PAROLA La parola e cio che si trova tra due spazi bianchi

10 QUALI SONO LE PAROLE DI UNA LINGUA? 25 lemmi dal Concise Oxford Dictionary: wannabe, want, wanting, wanton, wapentake, wapiti, War., war, waratah, war baby, warble 1, warble 2, warble fly, warbler, warby, war chest, war crime, war cry, ward, -ward

11 PAROLE E FORME DI PAROLA want (ma non wanted) sings, sang, sung sing Italiano: mangerò, mangeresti, mangerai mangiare nero, nera, neri, nere nero = 7 forme di parola, 2 parole

12 FORME DI CITAZIONE Un dizionario riporta le FORME DI CITAZIONE (= LEMMI) delle parole Convenzioni diverse a seconda della lingua: Italiano: infinito (AMARE) Inglese: TO LOVE Latino: prima persona presente singolare (AMO)

13 OMONIMI warble 1, warble 2 : due PAROLE, stessa FORMA (OMONIMI) Italiano: diligenza, tara, (botte, pesca …)

14 PRIMO CRITERIO DI IDENTIFICAZIONE : Si hanno parole distinte quando si abbiano CONCETTI diversi Vedi sotto, morfemi

15 PAROLE: FORME FONEMICHE E GRAFICHE La definizione di parola cio che si trova tra due spazi bianchi e puramente ORTOGRAFICA Ogni parola ha DUE forme: i SUONI (FONEMI) che la compongono e il modo in cui viene rappresentata graficamente (GRAFIA)

16 PAROLE E LA LORO GRAFIA La nostra `immagine delle parole (e la loro posizione in un dizionario, cartaceo od elettronico) spesso dipende dalla grafia usata La grafia pero cambia di continuo: lengaio linguaggio, dinaro denaro Occorre anche ricordare che lo scritto segue il parlato, e che non sempre la corrispondenza e perfetta

17 INGLESE: HOMOGRAPHS read, read, read tear / tear bow, refuse, wind HOMOPHONES: bare / bear, pale / pail, stake / steak Mary / merry / marry (alcuni dialetti Americani)

18 ITALIANO La grafia delle parole Italiane non e cambiata molto dagli inizi del Cinquecento (prime edizioni a stampa, e.g., edizione del Petrarca curata da Bembo e stampata da Manuzio nel 1515) Ma per secoli lortografia non corrispondeva alla pronuncia

19 DUE ESEMPI DI CAMBIAMENTO DI GRAFIA V = U Vocabolario della Crusca, 1612: VATICINARE VBBIA VDITORE (Crusca 1738: V U, ordine invariato) H Vocabolario della Crusca, 1612: HUMILE

20 GRAFEMI E FONEMI melam'me:la bello 'b ɛ :llo bene 'b ɛ :ne ieri 'j ɛ :ri In Italiano ci sono 21 grafemi (+ 5) ma 30 fonemi

21 QUALI SONO LE PAROLE DI UNA LINGUA? 25 lemmi dal Concise Oxford Dictionary: wannabe, want, wanting, wanton, wapentake, wapiti, War., war, waratah, war baby, warble 1, warble 2, warble fly, warbler, warby, war chest, war crime, war cry, ward, -ward

22 UNA FORMA, DUE PAROLE CONTRAZIONI: Wannabe gonna, gimme … CLITICI: COMPRALO SCRIVIMI

23 DUE FORME, UNA PAROLA Parole POLIREMATICHE o COMPLESSE (Inglese: MULTIWORDS) RIFLESSIVI: sedersi (Mario si sedette) Inglese sit (Mario sat) PAROLE IDIOMATICHE palla al piede, vuotare il sacco, tavola rotonda WEAK VERBS avere paura COMPOSTI: sci alpinismo, fuori servizio

24 PAROLE POLIREMATICHE IN INGLESE PHRASAL VERBS: break up, calm down, find out, give in, look over, pass out, show up, take off ….. COMPOUNDS: war baby, war chest, war crime, war cry, war dance bell and whistles, rock and roll, bow and scrape, nip and tuck …. IN TEDESCO: Donaudampfschiffahrtgesellschaftkapitänwitwe

25 DA FORME POLIREMATICHE A COMPOSTI salvavita / tritacarne / dopolavoro / benestante

26 PAROLA = LESSEMA Marello: il termine PAROLA … [indica una] unita linguistica a cui sono associati una funzione grammaticale ed un significato, separata graficamente dalle altre da spazi e dotata di coesione interna, per cui non si possono inserire altri elementi al suo interno, ne si puo mutare lordine degli elementi che la costituiscono

27 RICORDIAMO ALCUNE DEFINIZIONI PAROLA (Inglese WORD): elemento linguistico (= unita del lessico mentale, LESSEMA) FORME DI PAROLA (Inglese WORD-FORM): Ortografica Fonetica LEMMA La FORMA DI CITAZIONE di una parola in un dizionario, associata con una VOCE (Inglese LEXICAL ENTRY) Spesso si usa il termine lemma per indicare la parola (rapporto 1:1)

28 USO DI CORPORA PER LIDENTIFICAZIONE DELLE PAROLE Where did the Encarta Concise English Dictionarys editors find the information on which to base their definitions? The Bloomsbury Corpus of World English, which now has over 150 million words, provided the main evidence. We amplified this with a tailored reading programme in science, technology, business, and other key areas in order to find evidence of word use in varied fields. Lastly we used the Internet as a research source. Introduzione a ECED (citata da Jackson, p. 167)

29 ANALISI LESSICOGRAFICA DI TESTI Identificazione dei LEMMI e delle loro parti del discorso Calcolo delle loro frequenze Costruzione di CONCORDANZE liste ordinate di parole che si trovano in un testo con il contesto Identificazione di COLLOCAZIONI broken twig

30 LIDENTIFICAZIONE DEI LEMMI NEI TESTI VIA COMPUTER TOKENIZZAZIONE LEMMATIZZAZIONE CLASSIFICAZIONE GRAMMATICALE

31 TOKENIZZAZIONE CERA UNA VOLTA UN PEZZO DI LEGNO. CERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. | C | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO |. |

32 ALCUNI PROBLEMI CON IL PUNTO CERA UNA VOLTA UN PEZZO DI LEGNO. IL SIG. ROSSI TELEFONÓ A CASA. U.S.A

33 MAIUSCOLE E MINUSCOLE Rossi / rossi Ciliegia / ciliegia

34 FORME POLIREMATICHE (= TOKEN COMPLESSI) Vuotare il sacco, tagliare la corda, di rado, fuori servizio, ad hoc War baby Los Angeles, La Spezia GU L 161 del

35 QUANTE PAROLE CI SONO IN UN TESTO? ITALIANO E LATINO il ragazzopuer ha datodedit una rosarosam a MariaMariae Altre lingue senza articoli / particelle: lingue slave (Ceco), Cinese, …

36 LA CLASSIFICAZIONE DELLE PAROLE Jackson, 1.5 Per saperne di piu: Jezek, capitolo 4 Graffi / Scalise, capitolo 2

37 RESTRIZIONI SULLE POSIZIONI DELLE PAROLE La ragazza lesse rapidamente il libro *Ragazza la lesse rapidamente il libro *La ragazza lesse il rapidamente libro Inglese: *The Sue quickly read the book Sottocategorie: *La ragazza arrivo il libro conigliera, baleniera, teiera, ma: *virtuiera, *pazienzera

38 CATEGORIE LESSICALI (PARTI DEL DISCORSO) NOMI (tavolo, Simona) VERBI (camminare, mangiare, colpire) AGGETTIVI (rosso, rapido) AVVERBI (probabilmente, subito) PRONOMI (io, lui, ci) ARTICOLI (il, la, un) PREPOSIZIONI (di, a, con) CONGIUNZIONI (e, ma, o) [Italiano]: INTERIEZIONI (ahi! )

39 ALCUNE DISTINZIONI PARTI DEL DISCORSO VARIABILI / INVARIABILI Luomo cammina / camminava PARTI DEL DISCORSO APERTE / CHIUSE Aperte: nomi, verbi, aggettivi, avverbi Chiuse: articoli, pronomi, preposizioni, congiunzioni

40 CATEGORIE UNIVERSALI? Il nome ed il verbo non mancano in nessuna lingua Larticolo manca in molte lingue (Latino, lingue slave, Cinese) Avverbio?

41 CATEGORIE LESSICALI E DIZIONARI Un dizionario tipicamente identifica tutte le parti del discorso che una certa forma di parola puo essere usata per esprimere, e solitamente associa voci diverse con ogni parte warble 1, warble 2 Italiano: legge, letto, affetto, porto, pianta …

42 ZINGARELLI INTERATTIVO: LEGGE 1 1 Norma, espressa dagli organi legislativi dello Stato, che stabilisce diritti e doveri dei cittadini Legge delega, che viene emessa dal potere esecutivo su delega del potere legislativo entro un ambito ben precisato Legge ponte, emessa in attesa di un'altra più organica A norma, a termini di legge, secondo ciò che la legge prescrive. 2 (est.) Complesso delle norme costituenti l'ordinamento giuridico di uno Stato: la legge è uguale per tutti Essere fuori della legge, non essere garantito dalla legge o non sentirsi a essa soggetto Dettar legge, imporre a tutti la propria volontà. 3 Scienza giuridica: laurea in legge; dottore in legge; facoltà di legge Uomo di legge, specialista nella scienza giuridica. 4 Autorità giudiziaria: ricorrere alla legge In nome della legge, formula con cui i rappresentanti dell'autorità giudiziaria intimano a qc. di obbedire a un comando della stessa: in nome della legge, aprite! 5 (est.) Ogni norma che regola la condotta individuale o sociale degli uomini: le leggi della società. 6 (est.) Regola fondamentale di una tecnica, di un'arte e sim.: le leggi della pittura. 7 Relazione determinata e costante fra le quantità variabili che entrano in un fenomeno: le leggi della matematica, della fisica.

43 ZINGARELLI INTERATTIVO: LEGGE 2 leggere v. tr. (pres. io lèggo, tu lèggi; pass. rem. io lèssi, tu leggésti; part. pass. lètto) 1 Riconoscere dai segni della scrittura le parole e comprenderne il significato: imparare, insegnare a leggere; leggere a voce alta (ass.) Fare lettura, dedicarsi alla lettura: trascorro gran parte della giornata leggendo. 2 Interpretare certi segni convenzionali o naturali: i ciechi leggono con le dita; leggere un diagramma (fig.) Leggere la mano, ricavare dati sul carattere e sul destino di qc. basandosi sulle linee della mano. 3 (lett.) Interpretare uno scritto, un passo: i critici dell'Ottocento leggevano erroneamente questa strofa (est.) Interpretare, valutare scritti, eventi e sim. secondo particolari criteri: leggere un film in chiave ironica. 4 (fig.) Intuire i pensieri e le intenzioni di qc.: gli si legge il terrore sul volto.

44 USO DI CORPORA PER LA CLASSIFICAZIONE GRAMMATICALE In molti dei corpora piu recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i token vengono classificati con la loro parte di discorso Brown corpus: fatto a mano BNC, LIP: fatto automaticamente Queste informazioni possono essere usate per associare parti del discorso ai lemmi

45 IL BROWN CORPUS Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961) 500 testi, ognuno parole Analisi SINCRONICA dellInglese Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa) Annotata la parte del discorso di tutte le parole (87 classi)

46 IL British National Corpus (BNC) Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press Circa 100 milioni di parole Classificazione grammaticale automatica usando il classificatore CLAWS (parti corrette a mano successivamente)

47 CLASSIFICAZIONE GRAMMATICALE: BROWN CORPUS Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN./.

48 AMBIGUITA NELLA CLASSIFICAZIONE GRAMMATICALE Molte forme di parola possono essere associate con parti del discorso diverse: STATO sia sostantivo (LO STATO ITALIANO) che verbo (NON SONO STATO IO)

49 AMBIGUITA NELLA CLASSIFICAZIONE GRAMMATICALE The AT man NN VB still NN VB RB saw NN VBD her PPO PP$

50 STATISTICHE SULLAMBIGUITA NEL B.C. Unambiguous (1tag)35,340 Ambiguous (2-7 tags)4,100 2 tags3,760 3 tags264 4 tags61 5 tags12 6 tags2 7 tags1 (still)

51 METODI PER LA CLASSIFICAZIONE GRAMMATICALE AUTOMATICA Prevalentemente STATISTICI Combinano: Informazioni sulla FREQUENZA di una parola Con informazioni sul CONTESTO (specialmente parole precedenti) E sulla sua MORFOLOGIA (specialmente per parole sconosciute) POBILARE

52 STRUMENTI INFORMATICI PER LA CLASSIFICAZIONE GRAMMATICALE INGLESE: LTG Edinburgh (LT-POS) QTAG Brill Tagger TEDESCO: TreeTagger: stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTag ger.html ITALIANO: versione italiana di TreeTagger A PAGAMENTO: Xelda (Italiano, Inglese, Francese, Tedesco, Chinese, Russo, etc)

53 MORFOLOGIA Jackson, 1.6 Marello, 1.2 Graffi / Scalise, I.3

54 I MORFEMI Le parole non sono necessariamente atomiche, ma (in Italiano almeno) si possono quasi sempre scomporre in unita piu piccole: i MORFEMI Un MORFEMA e la minima unita linguistica dotata di un significato proprio

55 DUE ESEMPI BOYS BOY+-S `essere umano, non adulto, sesso maschile `plurale

56 DUE ESEMPI REPURIFICARE `ripetizione`privo di contaminanti RE-+PUR-+-IFICARE `rendere

57 STRUTTURA DELLE PAROLE INGLESE: RADICE + AFFISSI RADICE (boy) AFFISSI (-s in boy+s) ITALIANO: TEMA + AFFISSI RADICE (ragazz-) TEMA (radice + vocale tematica – e.g., ragazzo) AFFISSI (-i in ragazz+i)

58 AFFISSI La modificazione delle parole avviene in due modi principali: `attaccando un AFFISSO ad un morfema; o giustapponendo due morfemi Tre tipi di affissi: PREFISSI: RE- + PURIFICARE REPURIFICARE SUFFISSI: PUR- + - IFICARE PURIFICARE INFISSI: CANT- + -ICCH- + IARE CANTICCHIARE

59 TRE TIPI DI MODIFICAZIONE FLESSIONE DERIVAZIONE COMPOSIZIONE

60 FLESSIONE Processo che AGGIUNGE alla radice / tema informazione semantica grammaticalizzata (tipicamente via suffissi): GENERE: bello bella NUMERO: bello belli CASO (Latino, Tedesco): rosa rosam TEMPO: ama amava PERSONA: amo / ami / ama

61 DERIVAZIONE Processo che produce NUOVE parole aggiungendo al tema prefissi, suffissi ed infissi PREFISSI: RE- + PURIFICARE REPURIFICARE SUFFISSI: PUR- + - IFICARE PURIFICARE INFISSI: CANT- + -ICCH- + IARE CANTICCHIARE

62 SUFFISSI ALTERATIVI Indicano dimensioni ridotte o segnalano linformalita della situazione casetta cenetta / sposini Tipici dellitaliano

63 CONVERSIONE Il processo di derivazione puo produrre parole la cui categoria lessicale (parte del discorso) e diversa da quella della parola originale. N V: magnete magnetizzare A V: attivo attivare N A V: centro centrale centralizzare A N V: giusto giustizia giustiziare In Italiano (ma non in Inglese): sostantivazione dellaggettivo (povero / il povero)

64 COMPOSIZIONE La composizione forma nuove parole a partire da parole esistenti CAPO+STAZIONE CAPOSTAZIONE SALVA+VITA SALVAVITA PAST- + ASCIUTTA PASTASCIUTTA

65 LEMMATIZZAZIONE AUTOMATICA DARGLIELO

66 LEMMATIZZAZIONE NEL LIP In Italiano, una volta nota la categoria grammaticale di una forma il lemma e solitamente univocamente determinato Eccezioni: 1.4% (CONTI: pl. di CONTO o CONTE) Processo in tre passi

67 LEMMATIZZAZIONE ANCORA LA DERIVA: 1. ANCORA (N, V, CON) LA (ART, PRO) DERIVA N, V) 2. ANCORA (V) LA (ART) DERIVA (N) 3. ANCORA (V ANCORARE) LA (ART IL) DERIVA (N DERIVA)

68 LEMMATIZZAZIONE CON XELDA

69 XELDA: DEMO ONLINE Analisi morfologica in 14 lingue

70 PER RIASSUMERE: NOZIONI DI BASE DI MORFOLOGIA: PARTI DEL DISCORSO MORFEMA FLESSIONE, DERIVAZIONE, COMPOSIZIONE

71 PROCESSI DI FORMAZIONE DELLE PAROLE COMPOSIZIONE DA PAROLE ESISTENTI Anche due parole greche (biblioteca, ippodromo) DERIVAZIONI Remasterizzare ACRONIMI AIDS, CD-ROM, HTML … PRESTITI Bonsai, glasnost, golpe, tango,

72 ACRONIMI IN ITALIANO: Dizionario interattivo Zanichelli TN (Trento, Tennessee, etc) T/N – turbonave TND – dinaro tunisino TNT TO TOM - fr. Territoire d'Outre-Mer (territorio d'oltremare) TOREMAR - TOscana REgionale MARittima (società di navigazione) Torr. - Torrente (nelle carte geografiche) TOSAP (Tassa sull'Occupazione di Spazi ed Aree Pubblici) Tosc. (toscano)

73 DA DOVE ARRIVANO LE PAROLE DELLITALIANO? Le parole piu antiche: Sec IX-X: a, da, bevere, dente, favella : anno, contenere, ki (qui) : genitore, male, pane, prendere Dal bizantino: arcipelago, catasto, duca, iconoclasta, molo, … Dal latino medievale: acquavite, bonificare, commissario, scatola, … Dalle lingue Germaniche: albergo (Gotico), airone (Longobardo) DallArabo: darsena, dogana,,magazzino, assassino, cotone, facchino, algebra, zenit, alambicco … Dal Francese: bersaglio, conte, dama, freccia, giullare, sire Dallo Spagnolo: acciacco, alfiere, appartamento, disinvoltura, ….

74 STORIA DELLE PAROLE INGLESI DallAnglo Sassone ( Old English) Dalle lingue scandinave (they, them, their) Dal Francese ( Middle English) Dal Latino / Greco / Francese durante il Rinascimento fino al 1700 circa

75 LETTURE Jackson, capitoli 1 e 9 Marello, capitolo 1 Per saperne di piu: Jezek, capitoli 1, 2 e 4 Lenci Montemagni & Pirrelli, capitolo 4


Scaricare ppt "ANNUNCI ORARI: 25/4 e 2/5: niente lezione RICEVIMENTO: Lunedi 16-18, ufficio di Povo, SOLO SU APPUNTAMENTO piano."

Presentazioni simili


Annunci Google