Presentiamo un sistema di analisi testuale per grandi corpora organizzato in quattro componenti principali: il tokenizzatore, i dizionari, l'analizzatore morfologico e il lemmatizzatore automatico, il disambiguatore sintattico. Il sistema utilizza regole linguistiche per generare le analisi sulla base di dizionari di morfemi e forme suppletive. Il punto di forza del sistema sta nella capacità di riconoscimento di parole sconosciute, cioè di parole non riconoscibili sulla base della sola morfologia flessionale. In questi casi, il sistema attiva i processi di derivazione per affissi che controllano la buona formazione della analisi con restrizioni linguistiche. Un'altra importante caratteristica del sistema, è costituita dalla sua capacità di costruire forme polirematiche o collocazioni di vario genere sulla base di una grammatica a stati finiti. Una serie di forme idiomatiche in cui la testa è costituita da un verbo leggero o "light verb" e da una sequenza fissa di parole viene riconosciuta grazie alla lemmatizzazione. Per finire, la fase finale di disambiguazione non viene basata con una fase di training e con metodo statistico, ma su basi strettamente linguistiche. Vengono utilizzate reti di transizione per costruire una analisi sintattica shallow, in cui il raggiungimento della testa coincide con la presenza di un arco di tipo POP o di tipo PUSH.
IMMORTALE: Analizzatore Morfologico, Tagger e Lemmatizzatore per l'Italiano
DELMONTE, Rodolfo;
1996-01-01
Abstract
Presentiamo un sistema di analisi testuale per grandi corpora organizzato in quattro componenti principali: il tokenizzatore, i dizionari, l'analizzatore morfologico e il lemmatizzatore automatico, il disambiguatore sintattico. Il sistema utilizza regole linguistiche per generare le analisi sulla base di dizionari di morfemi e forme suppletive. Il punto di forza del sistema sta nella capacità di riconoscimento di parole sconosciute, cioè di parole non riconoscibili sulla base della sola morfologia flessionale. In questi casi, il sistema attiva i processi di derivazione per affissi che controllano la buona formazione della analisi con restrizioni linguistiche. Un'altra importante caratteristica del sistema, è costituita dalla sua capacità di costruire forme polirematiche o collocazioni di vario genere sulla base di una grammatica a stati finiti. Una serie di forme idiomatiche in cui la testa è costituita da un verbo leggero o "light verb" e da una sequenza fissa di parole viene riconosciuta grazie alla lemmatizzazione. Per finire, la fase finale di disambiguazione non viene basata con una fase di training e con metodo statistico, ma su basi strettamente linguistiche. Vengono utilizzate reti di transizione per costruire una analisi sintattica shallow, in cui il raggiungimento della testa coincide con la presenza di un arco di tipo POP o di tipo PUSH.File | Dimensione | Formato | |
---|---|---|---|
morfol.pdf
non disponibili
Tipologia:
Abstract
Licenza:
Licenza non definita
Dimensione
19.65 kB
Formato
Adobe PDF
|
19.65 kB | Adobe PDF | Visualizza/Apri |
I documenti in ARCA sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.