Presentiamo un sistema di analisi testuale per grandi corpora organizzato in quattro componenti principali: il tokenizzatore, i dizionari, l'analizzatore morfologico e il lemmatizzatore automatico, il disambiguatore sintattico. Il sistema utilizza regole linguistiche per generare le analisi sulla base di dizionari di morfemi e forme suppletive. Il punto di forza del sistema sta nella capacità di riconoscimento di parole sconosciute, cioè di parole non riconoscibili sulla base della sola morfologia flessionale. In questi casi, il sistema attiva i processi di derivazione per affissi che controllano la buona formazione della analisi con restrizioni linguistiche. Un'altra importante caratteristica del sistema, è costituita dalla sua capacità di costruire forme polirematiche o collocazioni di vario genere sulla base di una grammatica a stati finiti. Una serie di forme idiomatiche in cui la testa è costituita da un verbo leggero o "light verb" e da una sequenza fissa di parole viene riconosciuta grazie alla lemmatizzazione. Per finire, la fase finale di disambiguazione non viene basata con una fase di training e con metodo statistico, ma su basi strettamente linguistiche. Vengono utilizzate reti di transizione per costruire una analisi sintattica shallow, in cui il raggiungimento della testa coincide con la presenza di un arco di tipo POP o di tipo PUSH.

IMMORTALE: Analizzatore Morfologico, Tagger e Lemmatizzatore per l'Italiano

DELMONTE, Rodolfo;
1996-01-01

Abstract

Presentiamo un sistema di analisi testuale per grandi corpora organizzato in quattro componenti principali: il tokenizzatore, i dizionari, l'analizzatore morfologico e il lemmatizzatore automatico, il disambiguatore sintattico. Il sistema utilizza regole linguistiche per generare le analisi sulla base di dizionari di morfemi e forme suppletive. Il punto di forza del sistema sta nella capacità di riconoscimento di parole sconosciute, cioè di parole non riconoscibili sulla base della sola morfologia flessionale. In questi casi, il sistema attiva i processi di derivazione per affissi che controllano la buona formazione della analisi con restrizioni linguistiche. Un'altra importante caratteristica del sistema, è costituita dalla sua capacità di costruire forme polirematiche o collocazioni di vario genere sulla base di una grammatica a stati finiti. Una serie di forme idiomatiche in cui la testa è costituita da un verbo leggero o "light verb" e da una sequenza fissa di parole viene riconosciuta grazie alla lemmatizzazione. Per finire, la fase finale di disambiguazione non viene basata con una fase di training e con metodo statistico, ma su basi strettamente linguistiche. Vengono utilizzate reti di transizione per costruire una analisi sintattica shallow, in cui il raggiungimento della testa coincide con la presenza di un arco di tipo POP o di tipo PUSH.
1996
Atti V° Convegno AI*IA "Cibernetica e Machine Learning"
File in questo prodotto:
File Dimensione Formato  
morfol.pdf

non disponibili

Tipologia: Abstract
Licenza: Licenza non definita
Dimensione 19.65 kB
Formato Adobe PDF
19.65 kB Adobe PDF   Visualizza/Apri

I documenti in ARCA sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10278/39869
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact