In questo articolo descriveremo il VIT, Treebank (Sintattico) dell’Italiano (dell’Università) di Venezia (Venice Italian Treebank) di 320.000 parole, creato dal Laboratorio di Linguistica Computazionale del Dipartimento di Scienze del Linguaggio. Focalizzeremo la nostra attenzione sulle caratteristiche sintattico- semantiche del treebank che sono in parte legate al tagset adottato, in parte sono dovute alla teoria linguistica di riferimento, e infine sono, come per ogni treebank, legate alla lingua prescelta, l’italiano. Con esempi presi anche da treebank dispo- nibili per altre lingue, mostreremo quali sono le differenze e le motivazioni teori- che e pratiche dietro le scelte fatte. Dedicheremo infine una parte della nostra pre- sentazione all’analisi quantitativa dei dati del nostro treebank confrontandoli con gli altri. In generale si cercherà di dimostrare come l’apprendimento di una gram- matica o di un parser in maniera automatica da un treebank, non possa dare gli stessi risultati passando da un treebank all’altro, e come questo processo sia dipendente da fattori sostanziali come il quadro linguistico di riferimento adotta- to per la descrizione strutturale nonché in ultima analisi, la lingua descritta.
VIT : Venice Italian Treebank : caratteristiche sintattico-semantiche e quantitative
DELMONTE, Rodolfo;
2009-01-01
Abstract
In questo articolo descriveremo il VIT, Treebank (Sintattico) dell’Italiano (dell’Università) di Venezia (Venice Italian Treebank) di 320.000 parole, creato dal Laboratorio di Linguistica Computazionale del Dipartimento di Scienze del Linguaggio. Focalizzeremo la nostra attenzione sulle caratteristiche sintattico- semantiche del treebank che sono in parte legate al tagset adottato, in parte sono dovute alla teoria linguistica di riferimento, e infine sono, come per ogni treebank, legate alla lingua prescelta, l’italiano. Con esempi presi anche da treebank dispo- nibili per altre lingue, mostreremo quali sono le differenze e le motivazioni teori- che e pratiche dietro le scelte fatte. Dedicheremo infine una parte della nostra pre- sentazione all’analisi quantitativa dei dati del nostro treebank confrontandoli con gli altri. In generale si cercherà di dimostrare come l’apprendimento di una gram- matica o di un parser in maniera automatica da un treebank, non possa dare gli stessi risultati passando da un treebank all’altro, e come questo processo sia dipendente da fattori sostanziali come il quadro linguistico di riferimento adotta- to per la descrizione strutturale nonché in ultima analisi, la lingua descritta.File | Dimensione | Formato | |
---|---|---|---|
2428595_SAM.pdf
non disponibili
Tipologia:
Abstract
Licenza:
Licenza non definita
Dimensione
128 kB
Formato
Adobe PDF
|
128 kB | Adobe PDF | Visualizza/Apri |
I documenti in ARCA sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.