In questo articolo descriveremo il VIT, Treebank (Sintattico) dell’Italiano (dell’Università) di Venezia (Venice Italian Treebank) di 320.000 parole, creato dal Laboratorio di Linguistica Computazionale del Dipartimento di Scienze del Linguaggio. Focalizzeremo la nostra attenzione sulle caratteristiche sintattico- semantiche del treebank che sono in parte legate al tagset adottato, in parte sono dovute alla teoria linguistica di riferimento, e infine sono, come per ogni treebank, legate alla lingua prescelta, l’italiano. Con esempi presi anche da treebank dispo- nibili per altre lingue, mostreremo quali sono le differenze e le motivazioni teori- che e pratiche dietro le scelte fatte. Dedicheremo infine una parte della nostra pre- sentazione all’analisi quantitativa dei dati del nostro treebank confrontandoli con gli altri. In generale si cercherà di dimostrare come l’apprendimento di una gram- matica o di un parser in maniera automatica da un treebank, non possa dare gli stessi risultati passando da un treebank all’altro, e come questo processo sia dipendente da fattori sostanziali come il quadro linguistico di riferimento adotta- to per la descrizione strutturale nonché in ultima analisi, la lingua descritta.

VIT : Venice Italian Treebank : caratteristiche sintattico-semantiche e quantitative

DELMONTE, Rodolfo;
2009-01-01

Abstract

In questo articolo descriveremo il VIT, Treebank (Sintattico) dell’Italiano (dell’Università) di Venezia (Venice Italian Treebank) di 320.000 parole, creato dal Laboratorio di Linguistica Computazionale del Dipartimento di Scienze del Linguaggio. Focalizzeremo la nostra attenzione sulle caratteristiche sintattico- semantiche del treebank che sono in parte legate al tagset adottato, in parte sono dovute alla teoria linguistica di riferimento, e infine sono, come per ogni treebank, legate alla lingua prescelta, l’italiano. Con esempi presi anche da treebank dispo- nibili per altre lingue, mostreremo quali sono le differenze e le motivazioni teori- che e pratiche dietro le scelte fatte. Dedicheremo infine una parte della nostra pre- sentazione all’analisi quantitativa dei dati del nostro treebank confrontandoli con gli altri. In generale si cercherà di dimostrare come l’apprendimento di una gram- matica o di un parser in maniera automatica da un treebank, non possa dare gli stessi risultati passando da un treebank all’altro, e come questo processo sia dipendente da fattori sostanziali come il quadro linguistico di riferimento adotta- to per la descrizione strutturale nonché in ultima analisi, la lingua descritta.
2009
Linguistica e modelli tecnologici di ricerca : atti del XL Congresso internazionale di studi della Società di linguistica italiana (SLI)
File in questo prodotto:
File Dimensione Formato  
2428595_SAM.pdf

non disponibili

Tipologia: Abstract
Licenza: Licenza non definita
Dimensione 128 kB
Formato Adobe PDF
128 kB Adobe PDF   Visualizza/Apri

I documenti in ARCA sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10278/39740
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact