Menu: torna alla home Portalita.

Una sezione del progetto è dedicata al censimento dei siti di interesse nelle aree:

  • Letteratura italiana
  • Linguistica italiana
  • Storia dell'arte italiana

Pagina per l'inserimento dei siti: http://butirro.di.unipi.it/site_tagging/ (accesso riservato)

Criteri di selezione

La prima fase del censimento consiste nel raccogliere un milione di parole tratte da siti web per ognuna delle aree.

La seconda fase consiste nel creare liste di mille parole (gold standard) per ognuna delle aree.

Problemi

Da parte del gruppo del Prof. Ferragina per il crawling di questi siti, problemi non ce ne sono, se non che a nostro avviso il risultato non sarà quello voluto. Cioè il crawling e la rimozione dei tag HTML è un lavoro banale, ma qualsiasi altro passo oltre questo richiede molto tempo e sono problematiche complesse anche per i più grandi motori di ricerca. E soprattutto vanno oltre lo scopo del progetto. D'altro canto i problemi principali di questo approccio sono:

  • la dimensione di quello che verrà fuori dal crawling è di gran lunga inferiore a quello che ci si aspetta. Per fare un esempio servirebbero probabilmente una cinquantina di siti come quello di Piromalli perchè i linguisti possano lavorare bene.
  • il corpus finale risulta molto sporco e difficilmente potrà costituire un buon corpus per i linguisti. (sporco significa un corpus che contiene molte parole che non sono minimamente correlate con le tematiche trattate dai documenti)

Fase di sperimentazione

Per valutare la qualità e la quantità dei testi estratti dai siti web si è deciso di partire con una fase di sperimentazione. (Per qualità non si fa riferimento all'affidabilità dei contenuti, ma alla presenza di testi lessicalmente ricchi che possano costituire un corpus utile all'analisi statistica ).

A tale fine sono stati individuati circa 10 siti per ogni area tra quelli indicati dagli esperti di dominio. Questo campione raccoglie siti che si prestano al crawling automatico (= strutture abbastanza pulite, senza eccessivi banner o elementi grafici). In misura minore sono stati inseriti anche siti piu "rumorosi" per valutare la capacita' degli strumenti di gestire anche situazioni più complesse. I 10 siti sono stati marcati come "crawl" e i testi contenuti al loro interno sono stati prelevati in parallelo con due processi: crawling automatico e copia e incolla manuale.

Lo scopo dell'esperimento era di valutare nella pratica i due metodi di lavorazione, registrando:

  • quanto tempo è necessario
  • quante parole si ricavano
  • quali differenze ci sono tra i corpus raccolti nei due modi.


Conduzione

Powered by MediaWiki