Questo lavoro presenta un’analisi finalizzata allo sviluppo semi-automatico di risorse secondo il modello di FrameNet per nuove lingue, con un’attenzione particolare per l’italiano. L’approccio proposto consiste nel mantenere, ove possibile, l’architettura teorica di FrameNet inglese, e nell’arricchire automaticamente la parte della risorsa specifica per ogni lingua, in particolare acquisendo lexical unit e frasi d’esempio in italiano. La prima parte dell’analisi è dedicata alla presentazione della teoria semantica dei frame e alla presentazione dei progetti in corso per lo sviluppo di nuovi FrameNet. Si fornisce inoltre una breve panoramica degli ambiti del trattamento automatico del linguaggio ai quali le informazioni sui frame potrebbero fornire un contributo significativo. La seconda parte della tesi si concentra maggiormente sugli aspetti applicativi e presenta tre strategie per l’annotazione semi-automatica di informazioni sui frame in testi italiani. Anche se il presente lavoro riguarda principalmente l’italiano, il modello proposto può essere facilmente esteso a altre lingue, poiché gli esperimenti effettuati utilizzano risorse multilingue liberamente disponibili come il corpus Europarl (in 11 lingue), MultiWordNet (5 lingue) e Wikipedia (264 lingue).

Semi-automatic techniques for extending the FrameNet lexical database to new languages / Tonelli, Sara. - (2010 Mar 29).

Semi-automatic techniques for extending the FrameNet lexical database to new languages

Tonelli, Sara
2010-03-29

Abstract

Questo lavoro presenta un’analisi finalizzata allo sviluppo semi-automatico di risorse secondo il modello di FrameNet per nuove lingue, con un’attenzione particolare per l’italiano. L’approccio proposto consiste nel mantenere, ove possibile, l’architettura teorica di FrameNet inglese, e nell’arricchire automaticamente la parte della risorsa specifica per ogni lingua, in particolare acquisendo lexical unit e frasi d’esempio in italiano. La prima parte dell’analisi è dedicata alla presentazione della teoria semantica dei frame e alla presentazione dei progetti in corso per lo sviluppo di nuovi FrameNet. Si fornisce inoltre una breve panoramica degli ambiti del trattamento automatico del linguaggio ai quali le informazioni sui frame potrebbero fornire un contributo significativo. La seconda parte della tesi si concentra maggiormente sugli aspetti applicativi e presenta tre strategie per l’annotazione semi-automatica di informazioni sui frame in testi italiani. Anche se il presente lavoro riguarda principalmente l’italiano, il modello proposto può essere facilmente esteso a altre lingue, poiché gli esperimenti effettuati utilizzano risorse multilingue liberamente disponibili come il corpus Europarl (in 11 lingue), MultiWordNet (5 lingue) e Wikipedia (264 lingue).
29-mar-2010
22
Scienze del linguaggio
Delmonte, Rodolfo
Pianta, Emanuele
File in questo prodotto:
File Dimensione Formato  
TESI_TONELLI.pdf

accesso aperto

Descrizione: Tesi completa
Tipologia: Tesi di dottorato
Dimensione 2.87 MB
Formato Adobe PDF
2.87 MB Adobe PDF Visualizza/Apri

I documenti in ARCA sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10579/1025
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact