La catalogazione by context ha l'obiettivo di catalogare un documento web W analizzando i contesti in cui compaiono i link a W.
Consideriamo i seguenti fatti:
Dalla piccola dimensione dei contesti segue anche che la loro analisi non puo' essere effettuata con tecniche basate su analisi statistiche della frequenza dei termini. Deve piuttosto essere utilizzato un algoritmo che estragga i termini significativi dai contesti e sfrutti la loro semantica.
L'estrazione dei termini verra' effettuata utilizzando un part-of-speech tagger (LTPOS), l'analisi semantica verra' effettuata utilizzando un thesaurus (WordNet).
Per effettuare l'analisi dei contesti descriviamo ogni categoria con un vettore di pesi. Ogni elemento del vettore corrisponde ad un livello dell'albero delle categorie.
L'insieme di tutte le categorie è rappresentato da una matrice MC di pesi. Ogni riga della matrice MC corrisponde ad una categoria.
L'analisi dei contesti consiste nell'aggiornamento degli elementi della matrice MC, via via che si estraggono i termini.
Per ogni termine t del contesto in esame, si aggiornano gli elementi della matrice MC corrisponenti.
L'aggiornamento consiste nel sommare agli elementi di MC un peso pari a:
a seconda che si abbia un match di morph(t) con:
(dl dipende dalla profondità del contesto, dw dipende dalla categoria sintattica del termine t).
Vorremo trattare correttamente il caso dei termini composti (noun phrases formati da piu' termini di WordNet, vedi hypernyms.html).
Nel seguito indicheremo con D l'insieme dei termini composti che descrivono le categorie, mentre indicheremo con DS l'insieme dei termini semplici che compongono i termini in D.
Per ogni termine t in DS costruiamo l'insieme I(t) dei termini dell'intorno di t (sinonimi, hyponyms, ecc.). Per ogni termine s in I(t) e' definito, inoltre, il peso di s rispetto a t che indichiamo con w(s,t) (ad esempio w(s,t) = sm se s e' un sinonimo di t. Alcuni termini possono essere contemporaneamente, sia sinonimi, sia correlati, sia hyponyms, in tal caso assumiamo per w(s,t) il massimo dei pesi previsti).
Poiche' i termini in DS sono semplici, la costruzione degli intorni I(t) sara' effettuata utilizzando WordNet.
La tabella TI e' una tabella hash con chiave un termine semplice e valore un insieme
di coppie
Indichiamo con TI(s) l'insieme delle coppie <t, w> associate ad s.
Costruiamo la tabella TI secondo il seguente algoritmo:
Con la tabella TI cosi' costruita, dato un termine s si puo' risalire velocemente ad un termine t usato nella descrizione delle categorie ed avere il peso w(s,t).
sia 'sport event' la descrizione di una categoria, allora sport event e' in D, sport ed event sono in DS.
Allora:
I(sport) = {football, basketball, tennis, ... }
I(event) = {happening, ... }
...
TI(sport) = {<sport, 1.0>, ... }
TI(event) = {<event, 1.0>, ... }
TI(football) = {<sport, 0.9>, ... }
TI(basketball) = {<sport, 0.9>, ... }
TI(tennis) = {<sport, 0.9>, ... }
TI(happening) = {<event, 0.6>, ... }
...
(i pesi in questo esempio sono del tutto ipotetici)
Indichiamo con TT(t) l'insieme {<r1,c1>, ..., <rn,cn>} dei riferimenti.
I termini composti presenti in TT sono i termini di D.
Tramite la tabella TT possiamo risalire velocemente agli elementi della matrice MC da aggiornare.
Utilizzando LTPOS si esegue un tagging dei termini nei contesti.
Analizzeremo i tag e considereremo sequenze di aggettivi e sostantivi come termini composti.
la frase:
The World Wide Web has evolved into an impressive open structure for sharing information.
sara' marcata da LTPOS come:
The_DT World_NP Wide_NP Web_NN has_VBZ evolved_VBN into_IN an_DT impressive_JJ open_JJ structure_NN for_IN sharing_VBG information_NN ._.
Considerando le sequenze di aggettivi e sostantivi otteniamo i seguenti termini composti:
World Wide Web
impressive open structure
information
Notare che estraendo i termini composti non commetteremo l'errore di considerare il termine world a se' stante (che ci porterebbe fuori strada), ma piuttosto come parte di un termine piu' complesso (World Wide Web e' in WordNet) e piu' indicativo del contenuto semantico della frase.
L'utilizzo di LTPOS ci permette, inoltre, di disambiguare i ruoli che i vari termini svolgono all'interno di una frase: sarebbe stato difficile utilizzando esclusivamente WordNet, stabilire, ad esempio, che open svolge il ruolo di aggettivo nella frase precedente (open puo' anche essere, a seconda dei contesti, un sostantivo o un verbo).
I termini composti estratti dai contesti non sempre combacieranno con i termini composti nella tabella TT, cercheremo, quindi, utilizzando la tabella degli intorni TI (costruita utilizzando WordNet), di risalire ai termini di nostro interesse.
Ad esempio se incontrassimo il termine composto football happening potremmo voler risalire al termine composto sport event presente in TT.
Sia s il termine composto estratto da un contesto e siano s0, ..., sn i termini complessi che compongono s (vedi hypernyms.html).
Per ogni termine si consideriamo l'insieme
Generalmente l'insieme Ti conterra' un solo termine, ma niente ci permette di escludere che in casi particolari possa contenere piu' di un elemento (questa eveninenza e' legata al fatto che i termini del linguaggio naturale possono avere molteplici significati).
Puo' accadere che Ti non contenga nessun termine, allora sara' scartato.
Quindi costruiremo tutti i termini composti possibili della forma:
Per ogni termine
Puo' accadere che nessun termine cosi' ottenuto sia in TT a causa di aggettivi che "specializzano troppo" il termine t.
Per ovviare a questa evenienza se nessun t e' in TT, allora si scarta il termine semplice piu' lontano dal sostantivo e si ripete il procedimento.
Con questa euristica per il riconoscimento dei termini composti si risolvono anche i problemi relativi alle relazioni Hypernym e Hyponym evidenziati in hypernyms.html.
Per aggiornare la matrice MC e' necessario stabilire il peso del termine t. Tramite la tabella TI e' possibile risalire al peso dei termini semplici. Vorremo definire una misura per dare un peso ai termini composti.
Sia
Due possibili misure per valutare w(s,t) (il peso del termine composto s rispetto al termine composto t) sono:
La misura 1 tendera' a fornire valori per w(s,t) piu' piccoli di quelli forniti dalla misura 2.