Tradizionalmente una collezione di testi è reppresentata in formato digitale da un insieme di documenti che contengono, oltre al testo stesso, qualche tipo di marcatura per veicolare informazioni extra-textuali, come metadati, annotazioni, etc. In questa tesi si propone un approccio differente, che modella l'informazione testuale in maniera duplice: sia come una sequenza di caratteri, sia come una composizione di particolari entità, chiamate oggetti testuali. Tramite questi oggetti è possibile rappresentare porzioni di testo, organizzate in gerarchie potenzialmente sovrapposte, complementate da annotazioni strutturate. Manuzio è un linguaggio di programmazione staticamente tipato che permette di deinire schemi di oggetti testuali e di scrivere interrogazioni e algoritmi di analisi testuali attraverso un insieme di operatori potenti. In questa tesi viene descritto il modello testuale, vengono specificate principali caratteristiche del linguaggio Manuzio, e viene introdotta la bozza di un sistema completo capace di archiviare collezioni di testi in maniera persistente e di eseguire programmi Manuzio.
Manuzio: an object language for annotated text collections / Maurizio, Marek. - (2010 Mar 02).
Manuzio: an object language for annotated text collections
Maurizio, Marek
2010-03-02
Abstract
Tradizionalmente una collezione di testi è reppresentata in formato digitale da un insieme di documenti che contengono, oltre al testo stesso, qualche tipo di marcatura per veicolare informazioni extra-textuali, come metadati, annotazioni, etc. In questa tesi si propone un approccio differente, che modella l'informazione testuale in maniera duplice: sia come una sequenza di caratteri, sia come una composizione di particolari entità, chiamate oggetti testuali. Tramite questi oggetti è possibile rappresentare porzioni di testo, organizzate in gerarchie potenzialmente sovrapposte, complementate da annotazioni strutturate. Manuzio è un linguaggio di programmazione staticamente tipato che permette di deinire schemi di oggetti testuali e di scrivere interrogazioni e algoritmi di analisi testuali attraverso un insieme di operatori potenti. In questa tesi viene descritto il modello testuale, vengono specificate principali caratteristiche del linguaggio Manuzio, e viene introdotta la bozza di un sistema completo capace di archiviare collezioni di testi in maniera persistente e di eseguire programmi Manuzio.File | Dimensione | Formato | |
---|---|---|---|
tesi.pdf
accesso aperto
Descrizione: Tesi di Dottorato
Tipologia:
Tesi di dottorato
Dimensione
2.01 MB
Formato
Adobe PDF
|
2.01 MB | Adobe PDF | Visualizza/Apri |
I documenti in ARCA sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.