Esperimento con copia e incolla

From Medialab

Menu: torna alla pagina Censimento dei siti - torna alla home Portalita.

Esperimento con copia e incolla: osservazioni di Maria Clotilde Camboni

Dunque, io ieri in un paio d'ore circa ho fatto il copiaincolla da tutti i link segnalati da Francesca dal sito spazioinwind.libero.it/letteraturait/ (trattasi di dieci pagine portale) più dalle due pagine di Poetilandia. Il numero di parole complessivo ricavato finora è in totale di poco meno di 160.000. Posso anche fornire il numero di parole per ogni pagina (portale) copiaincollata, se volete. Aggiungo che si tratta di testo pulitissimo (non so quanto possano eventualmente disturbare delle tabelle). Non posso fare il confronto con ciò che è stato ricavato dal crawling perché la connessione su cui sono non mi permette di accedere ai risultati: sempre che non sia un limite informatico mio. Comunque, eventualmente questo dato può confrontarlo qualcun altro.

Io volevo intanto fare alcune osservazioni.

La prima è che il numero di parole, almeno per il corpus "letteratura italiana", cresce abbastanza velocemente. Le pagine copiaincollate da me non sono che parte di due siti più ampi: e solo aggiungendo il pdf copiaicollato da Mirko l'altro giorno si arriva a 300.000 parole. Cioè il 30% del corpus minimo richiesto dai linguisti, se non ho capito male. Se poi i pdf presentano difficiltà ad essere acquisiti col crawling, vorrà dire che li si prenderà col copiaincolla: comunque è testo che viene tranquillamente ritrovato con Google, basta fare la ricerca giusta.

La seconda è che questa cosa del copiaincolla è più o meno economica a seconda della tipologia di sito in cui si naviga. Nel senso che, partendo da una pagina portale, più link si trovano nella stessa, più tempo ci si mette ad acquisire i dati, anche con una connessione velocissima. Garantisco che quella su cui sto lavorando è rapidissima, è proprio un problema di tempo impiegato dal povero copiaincollatore. Cioè, partendo da una "pagina portale" tipo "http://spazioinwind.libero.it/letteraturait/origini/origini.html", che ha una decina di link, a prendere tutto ci si mettono circa 5minuti, poco più. Se la pagina però dà accesso a una trentina di link (tipo "http://spazioinwind.libero.it/letteraturait/cinquecento/cinquecento.htm") il tempo necessario all'acquisizione dei dati aumenta in ragione del numero di link (tra dieci minuti e un quarto d'ora, nel caso citato sopra). Quindi, per fare questo lavoro su una pagina tipo questa "http://spazioinwind.libero.it/letteraturait/dante/dantealtro.htm", che dà accesso a 100 link, uno per canto della Commedia (di cui si danno riassunto e introduzione), ci vogliono da tre quarti d'ora a un'ora, a occhio.

Se invece delle pagine portale consideriamo i siti nel loro complesso, il tempo di acquisizione aumenta ancora. Un sito tipo quello di Piromalli "http://www.storiadellaletteratura.it/index.php" avrà sui 150-160 link da aprire, su due livelli. Ragion per cui copiarsi tutto a mano mi sembra poco economico. Io non so quali siano i dieci siti scelti per il crawling e che risultati diano presi uno ad uno, ma a copiaincollare questo (che è uno) ci si mette almeno la metà del tempo che è stato necessario a fare il crawling di tutti e dieci quelli scelti (tra i quali non so se ci sia questo).

Quanto al problema del rumore, dovrei vedere i risultati per riuscire a valutarlo un po' (anche se temo non sia una cosa che riguardi me, e probabilmente il mio parere in proposito è irrilevante). Penso che stasera stessa cercherò un'altra connessione e tenterò di farmi un'idea. Però se tra i siti presi ci sono le "pagine portale" di Italica, quelle due prendendole come tali e fermando il parsing ai link di primo livello danno semplicemente pochissimo testo utile, così poco che ovviamente il rumore relativo sarà elevatissimo.

Scusate le osservazioni prolisse e probabilmente poco utili (visto che nemmeno riesco a vedere i risultati del crawling). Vado a copiaincollare le pagine di Italica, nell'attesa di vedere se riesco a immaginare un modo migliore di acquisirle.

Si saluta nelle discussioni?

MCCamboni.

Aggiornamento: ho visto i file del crawling e ho fatto un piccolo e stupido confronto. Riporto qua i risultati, perché forse possono servire a Francesca. Posso darne altri, ma magari non dalla gradinata dove mi trovo ora... (Scusate). Quindi, il crawling dalla pagina portale "Cinquecento" di De Bellis (l'ho presa perché è fra quelle che davano più materiale) copiato in openoffice dà 58834 parole e 556788 caratteri. Il mio copiaincolla della stessa sezione dà 48178 parole e 312123 caratteri. Il problema è: io non ho mai copiato le intestazioni, nemmeno "letteratura italiana" o "cinquecento", e ovviamente nemmeno il testo dei link accanto al testo, ho copiato e incollato il puro testo. Ergo, mi sa che il confronto è infattibile in termini numerici. Scorrendo il file a me sembra più che altro di vedere qualche tag residuo, e che si ripete più volte (tipo "font family"), che potrebbe dare problemi. Ma mi sa che a questo punto la palla passa a Francesca.

Ultimo aggiornamento sul copiaincolla (per il momento): il copiaincolla di una parte della sezione su Dante del sito Italica (spedito a Francesca, che l'ha aggiunto al corpus) ha dato come risultato circa 65.000 parole acquisite in circa tre quarti d'ora. Non è possibile fare un confronto col crawling perché sfortunatamente il sito Italica non sembra acquisibile in maniera automatica. Il problema si pone per tutta una serie di siti che potrebbe essere utile aggiungere al corpus dei linguisti. Per questi siti potrebbe quindi valere la pena di riprendere il copiaincolla in uno o più momenti successivi al fine di arricchire tale corpus.



ESPERIMENTO CON COPIA E INCOLLA: OSSERVAZIONI DI ELENA LAZZARINI


Per fare il copia e incolla dei dieci siti segnalati da Francesca (cfr. criteri censimento siti) ho impiegato circa undici ore dovendo eliminare numerose immagini e griglie di lay out

Il numero complessivo delle parole é poco più di 370.300.

Nel sito "arte motore" molti links interni di primo livello portano a contenuti non pertinenti il dominio artistico o quantomento non conformi ai nostri criteri di valutazione dei siti (cfr. pagina su criteri valutazione "siti di qualità" in corso di elaborazione): si tratta per lo più di dati inerenti le quotazioni delle opere, degli artisti, semplici elenchi di gallerie, musei etc. Suppongo che di questo si dovrà tener conto in fase di crawling e pertanto ritengo utile segnalarli dettagliatamente:

"Quotazione artisti" "Quotazione incisori" Gallerie d'arte" "Il club degli artisti" "Musei Italiani" "Musei nel mondo" "Grandi fotografi" "Il fumetto" "Case d'asta"

Nel sito "encarta encyclopedia trattati" ho ritenuto utile fermare il mio taglia e incolla al secondo livello di approfondimento: anche se non tutti, molti degli argomenti trattati nei livelli successivi esulano dal dominio di pertinenza. In questo modo sono state sacrificate parti di sicuro interesse, sarebbe forse utile (ma non so se possibile) poter valutare in fase di crawling se sia più economico avanzare su tutti i livelli e così ritrovarsi con un po' di lemmi inutili - da eliminare in un secondo momento- oppure decidere di ignorare anche quelli utili fin da principio.