This function is called to add each word in a category title with self
as neighbour
This is because the phrase analyzer discards any word not
present in any neighborhood
It also counts words in title.
E' un tool a linea di comando:
Uso: java CategorieMaker inputFile outputFile
Legge un file di testo (inputFile) che descrive le categorie e costruisce un file di oggetti
contenente un oggetto Categorie ed un oggetto Dizionario (outputFile).
Avvia la catalogazione.
Uso: java text.Go nomeFileInputs
dove nomeFileInputs un file nel quale sono specificati gli URLs dai
quali partire con la catalogazione, i prefissi per i 'siti indice' e
le condizioni per la stop-list degli URLs.
Il formato del file nomeFileInputs :
Lista URLs di partenza, uno per riga
#
Lista prefissi per i "siti indice", uno per riga
#
Lista sottostringhe per stop-list, una per riga
#
ATTENZIONE: il controllo degli errori non implementato.
analyzes a sentence described by a series of tags and lemmas and returns
a vector of phrases (each one a vector of strings representing a noun phrase).
analyzes a sentence described by a series of tags and lemmas and returns
a Vector of Phrase (each one representing a noun phrase)
The Vector abstr if filled with the noun-phrases for the abstract.
analyzes a sentence described by a series of tags and lemmas and returns
a Vector of noun phrases (each one a vector of String made with lemmas)
The Vector abstr if filled with a string for each noun phrase.
Given a vector of lists of related words (each one a pair of term and a
similarity factor), enumerates all sequences of words made with related
words with associated overall weights.
Permette di recuperare degli indici:
- sposta l'indice nell'archivio degli indici da catalogare
- elimina l'indice dall'archivio degli indici utilizzati
- elimina gli url catalogati a partire da questo indice