Menu: torna alla home Portalita.

Lista indicativamente di 1000 parole o sintagmi che possa funzionare da Gold Standard per la valutazione dei tool di estrazione. L'idea e' di raccogliere glossari esistenti. Qualora riteniate necessario aggiungere dei termini, si prega di seguire alcune specifiche:

  • escludere i verbi (oltre ovviamente alle parole grammaticali).
  • E' sufficiente la parola (o il sintagma) pura e semplice, senza definizione.
  • La lista dovrebbe contenere di base lemmi, a meno che non esista una forma particolare del termine che assuma, in quel dominio, un significato o un valore specifico. In quel caso avra' senso inserire tale forma. Per esempio il termine "aiuto", nella forma plurale "aiuti" acquista il senso di "soccorsi/aiuti umanitari" e puo' essere inserito nella sua forma plurale.O ancora, nel dominio giuridico si utilizza spesso il termine "acque internazionali" , non "acqua internazionale", per questo il termine del glossario sarà "acque internazionali" .

In realtà utilizzando glossari già esistenti questi problemi non dovrebbero emergere.

  • Nomi propri: sarebbe utile identificarli con un tag particolare, in modo da poterli escludere se necessario.Il nostro suggerimento quindi e' di identificare i nomi propri con un NP. Ideale sarebbe costruire una tabella word, dove indicare il termine nella colonna A e un eventuale tag NP, nel caso di nomi propri nella colonna B. La colonna B puo' essere usata per qualsiasi annotazione riteniate opportuno riportare.


Inoltre, dato che mettendo il lemma vengono catturate tutte le forme dello stesso, se c'è già l'aggettivo "critico" è inutile mettere non solo il s.m., ma anche il s.f. "critica". Invece, dato che un sintagma viene trovato solo se è completo, non è affatto inutile ripetere una parte di quel sintagma, se accade che venga adoperata per riferirsi all'autore/opera/etc. indicato dalla stringa complessiva. Quindi oltre a "Rerum vulgarium fragmenta" è utile mettere "Fragmenta" da solo.

Per quanto riguarda il numero di termini, anche se indicativamente si è parlato di 1000 (sulla base di gold standard di altri domini), e sufficiente fermarsi nel momento in cui pensate di aver raggiunto una lista che riteniate rappresentativa dei termini del dominio di vostra competenza.

Valutazione della situazione: il 17 settembre.

Brevi annotazioni su Gold Standard "Dominio arte". Per creare un glossario di poco più di 1000 parole (esclusi i nomi propri che non ho ancora inserito) ho impiegato circa sette ore. Ritengo però che per avere un lista quanto più rappresentativa possibile del dominio arte sia neccessario espendere ulteriormente il glossario.

Elena Lazzarini

Powered by MediaWiki