Tradizionalmente una collezione di testi è reppresentata in formato digitale da un insieme di documenti che contengono, oltre al testo stesso, qualche tipo di marcatura per veicolare informazioni extra-textuali, come metadati, annotazioni, etc. In questa tesi si propone un approccio differente, che modella l'informazione testuale in maniera duplice: sia come una sequenza di caratteri, sia come una composizione di particolari entità, chiamate oggetti testuali. Tramite questi oggetti è possibile rappresentare porzioni di testo, organizzate in gerarchie potenzialmente sovrapposte, complementate da annotazioni strutturate. Manuzio è un linguaggio di programmazione staticamente tipato che permette di deinire schemi di oggetti testuali e di scrivere interrogazioni e algoritmi di analisi testuali attraverso un insieme di operatori potenti. In questa tesi viene descritto il modello testuale, vengono specificate principali caratteristiche del linguaggio Manuzio, e viene introdotta la bozza di un sistema completo capace di archiviare collezioni di testi in maniera persistente e di eseguire programmi Manuzio.

Manuzio: an object language for annotated text collections / Maurizio, Marek. - (2010 Mar 02).

Manuzio: an object language for annotated text collections

Maurizio, Marek
2010-03-02

Abstract

Tradizionalmente una collezione di testi è reppresentata in formato digitale da un insieme di documenti che contengono, oltre al testo stesso, qualche tipo di marcatura per veicolare informazioni extra-textuali, come metadati, annotazioni, etc. In questa tesi si propone un approccio differente, che modella l'informazione testuale in maniera duplice: sia come una sequenza di caratteri, sia come una composizione di particolari entità, chiamate oggetti testuali. Tramite questi oggetti è possibile rappresentare porzioni di testo, organizzate in gerarchie potenzialmente sovrapposte, complementate da annotazioni strutturate. Manuzio è un linguaggio di programmazione staticamente tipato che permette di deinire schemi di oggetti testuali e di scrivere interrogazioni e algoritmi di analisi testuali attraverso un insieme di operatori potenti. In questa tesi viene descritto il modello testuale, vengono specificate principali caratteristiche del linguaggio Manuzio, e viene introdotta la bozza di un sistema completo capace di archiviare collezioni di testi in maniera persistente e di eseguire programmi Manuzio.
2-mar-2010
22
Informatica
Orsini, Renzo
File in questo prodotto:
File Dimensione Formato  
tesi.pdf

accesso aperto

Descrizione: Tesi di Dottorato
Tipologia: Tesi di dottorato
Dimensione 2.01 MB
Formato Adobe PDF
2.01 MB Adobe PDF Visualizza/Apri

I documenti in ARCA sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10579/918
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact