VIT : Venice Italian Treebank : caratteristiche sintattico-semantiche e quantitative

Delmonte, Rodolfo; Antonella, Bristot; Piccolino Boniforti Marco Aldo,

doi:10.1400/137530

In questo articolo descriveremo il VIT, Treebank (Sintattico) dell’Italiano (dell’Università) di Venezia (Venice Italian Treebank) di 320.000 parole, creato dal Laboratorio di Linguistica Computazionale del Dipartimento di Scienze del Linguaggio. Focalizzeremo la nostra attenzione sulle caratteristiche sintattico- semantiche del treebank che sono in parte legate al tagset adottato, in parte sono dovute alla teoria linguistica di riferimento, e infine sono, come per ogni treebank, legate alla lingua prescelta, l’italiano. Con esempi presi anche da treebank dispo- nibili per altre lingue, mostreremo quali sono le differenze e le motivazioni teori- che e pratiche dietro le scelte fatte. Dedicheremo infine una parte della nostra pre- sentazione all’analisi quantitativa dei dati del nostro treebank confrontandoli con gli altri. In generale si cercherà di dimostrare come l’apprendimento di una gram- matica o di un parser in maniera automatica da un treebank, non possa dare gli stessi risultati passando da un treebank all’altro, e come questo processo sia dipendente da fattori sostanziali come il quadro linguistico di riferimento adotta- to per la descrizione strutturale nonché in ultima analisi, la lingua descritta.