Activities: 2008

From Medialab

Activities

  • Corpus: Estrazione Testi

Definire un semplice formato, come quelli della TREC, in cui si rappresentano più documenti per file. Ogni file contiene documenti fino a raggiungere una certa dim. max. Per esempio i file in /project/piqasso/Collection/TREC/2000 ci sono più directory, ogni directory contiene al massimo 50 file zippati. Ogni file contiene più <DOC>...</DOC> Ci servono alcuni attributi per DOC:

ID identificatore sequenziale
URL riferimento alla pagina Wiki da cui è preso.

TASK: Definire questo formato, documentarlo nel Wiki, e poi rifare l'estrazione della collezione in questo formato. (Fuschetto)

  • Analisi: Sentence splitting

Produrre versione con suddivisione in frasi. TASK: Provare ad utilizzare punkt, all'interno di wikicleaner. (Fuschetto)

  • Analisi: POS tagging:
  1. produrre un corpus di allenamento per TreeTagger con i tags stabiliti (Attardi)
  2. produrre training set con tag stabiliti: trasfomare corpus Repubblica mediante script (Tamberi)
  • Analisi: Morph tagging:
  1. utilizzare Morph-it! per produrre i morph da assegnare al corpus.

Morph-it! è installato in /project/piqasso/QA/Tanl/morph.

TASK: produrre una versione di tagger morfologico basato sul corpus e il tool SST.

  • Analisi: Splitting dei clitici:

Effettuare la suddivisione dei termini con clitici sulla base dei tag POS e morph.

TASK: produrre uno script per effettuare la suddivisione in più token dei termini con clitici. (Tamberi)