Weekly Tasks

From Medialab

20 June

  1. Felice: provare Pisa Tagager su repubblicaMorph
  2. Maria: estrarre morph non usati da TUT e aggiungere come colonna
  1. Antonio, Francesco, Felice: tradurre POS ISST in Tanl
  2. Simi: taggare ISST con PO tagger Tanl e fare crosscheck col precedente
  3. Felice, Eva: Progettare la traduzione di Dipendenze da ISST a Tanl
  4. Antonio: taggare con POS Wikipedia
  5. Beppe, Maria: bostrapping con Parser Catalano
  6. Beppe: analisi uso corpus parallelo, con allineatore

13 June

  1. Francesco e Antonio: splitting dei clitici.

23 May

  1. Tutti: complete generation of version of Repubblica Corpus annotated with Tanl Morpho POS.

16 May

  1. Simonetta, Maria, Beppe: first release of Dependency Tag Set

28 April

  1. Antonio: training and installation of punkt for Italian

23 April

  1. All: addition MorphIt! tags to Repubblica Corpus and manual revision

19 March

  1. Francesco: tokenizer for Italian

11 March

  1. Antonio: revised version of Wikipedia Extractor

27 February

  1. Beppe: first release of TreeTagger for Tanl

20 February

  1. Francesco: script di conversione POS Repubblica in POS Tanl.
  2. Francesco: test di hadoop su elementi della nostra pipeline (wikiclean, punkt)
  3. Antonio: rifinitura wikiclean, utilizzo di punkt
  4. Beppe: training POS tagger con POS Tanl
  5. Felice, Maria, Simonetta: definire bozza di Dependency Tagset

13 February

  1. Francesco: installare e configurare hadoop.
  2. Antonio: Definire formato documenti estratti da Wikipedia, documentarlo nel Wiki, e poi rifare l'estrazione della collezione in questo formato.
  3. Antonio: Provare ad utilizzare punkt, all'interno di wikicleaner.
  4. Attardi: produrre un corpus di allenamento per TreeTagger con i tags Natl
  5. Francesco: produrre training set con tag Natl: trasfomare corpus Repubblica mediante script
  6. Antonio: produrre una versione di tagger morfologico basato sul corpus Morph-it! e il tool SST.
  7. Francesco: produrre uno script per effettuare la suddivisione in più token dei termini con clitici.
  8. Felice: tagging di Wikipedia con POS tagger ILC-UniPi.