TitoloAnalisi di testi per il Semantic Web e il Question Answering Partecipanti
SommarioLa capacità di analizzare documenti testuali (text analytics) è fondamentale per una serie vastissima di applicazioni, visto che oltre il 90% delle informazioni vengono espresse e distribuite sotto forma di documenti testuali, sia in ambito interno a un organizzazione che pubblicate sul Web. Un sistema di analisi dei testi deve essere in grado di assimilare dati testuali di qualunque dimensione e struttura, di estrarne i termini principali, assegnandoli a categorie di significati (tassonomia o ontologia) e individuarne relazioni semantiche. Per estrarre conoscenze ed effettuare una analisi non solo superficiale dei contenuti, come fanno gli attuali sistemi di Information Retrieval e i motori di ricerca sul Web, occorre utilizzare strumenti di analisi del linguaggio di tipo sintattico/semantico. Le tecniche di estrazione di conoscenze da testi sono fondamentali in un ampio spettro di applicazioni, dal Question Answering, al Knowledge Management, alla Business Intelligence, al Semantic Web. Il progetto si pone l’obiettivo di mettere a punto le tecnologie necessarie per l’analisi di testi in lingua italiana necessarie per la realizzazione di applicazioni di text analytics. In particolare si prevede di mettere a punto un parser (analizzatore grammaticale) induttivo a dipendenze per diverse lingue, in particolare per la lingua italiana. Tale parser utilizza una tecnica innovativa che si basa sull’apprendimento automatico a partire da un corpus di documenti annotati. Mentre corpora di apprendimento sono disponibili per altre lingue, per l’italiano va costruito un corpus ad hoc, a partire da collezioni sviluppate in passato dai proponenti. Il parser verrà utilizzato nello sviluppo di due applicazioni significative di analisi di documenti: Question Answering e Topic Detection. Stato dell'arteIl Natural Language Processing (NLP) si occupa dello sviluppo di algoritmi per il parsing, la generazione, l’acquisizione di conoscenza linguistica, la progettazione di linguaggi formali, la definizione di architetture software appropriate per l’analisi della lingua. Nella sua versione più finalizzata all’applicazione e al mercato (la cosiddetta Ingegneria del Linguaggio), il Natural Language Processing tende all’ingegnerizzazione di prodotti finali studiati per soddisfare le esigenze di utenti con bisogni ben definiti e pensati per soddisfare un buon rapporto costi-benefici. Il Question Answering (QA) è un classico degli studi di Natural Language Processing. Esso permette all’utente di porre una domanda in linguaggio naturale e di ricevere una risposta. Già Simmons, nel 1965, recensiva nel suo Answering English Questions by Computers una quindicina di sistemi funzionanti, alcuni concepiti come front ends a database (BASEBALL (Green et al., 1961) e LUNAR (Woods 1973)), altri basati sul dialogo (SHRDLU (Winograd 1972) e GUS (Bobrov et al., 1977)) altri ancora legati al task di comprensione di storie (QUALM di Lehenert, 1978). Ci sono molti modi per affrontare la costruzione di un sistema di QA e molte tipologie di applicazioni, classificabili sulla base dei molteplici fattori che giocano un ruolo nella definizione delle strategie di realizzazione e di ricerca. Seguendo (Hirshman e Gaizauskas, 2001) diremo che questi fattori sono:
Oggi il QA ha assunto una posizione di rinnovato interesse dovuta alla crescita esponenziale della quantità di dati disponibili sottoforma di pagine web e alla necessità di accedervi in modo intelligente. Proprio perché pensati per accedere a vasti repertori di dati non strutturati, come il web, i sistemi di QA di ultima generazione non ristretti a domini specifici (quindi sistemi di Open-Domain Question Answering) sono concepiti come architetture complesse (Hirschman and Gaizauskas, 2001; Paşca, 2003) che mettono insieme tecniche di Information Retrieval e moduli di NLP. I moduli portanti delle applicazioni di Open-Domain QA sono:
Il primo modulo consiste nell’analisi (morfosintattica, sintattica, semantica) della domanda in linguaggio naturale posta dell’utente. In genere la domanda viene classificata sulla base di un’ontologia in modo da determinare il tipo di risposta attesa (per esempio una data, il nome di una persona, un luogo ecc.). La domanda viene analizzata e scomposta in parole chiave, che costituiranno la query che verrà sottomessa al motore di ricerca. Durante questa fase centrale verrà estratta la lista di documenti (o di paragrafi) candidati alla risposta (restituiti in genere per ordine di importanza) (Monz, 2003). L’ultimo modulo delle applicazioni di Open-Domain QA restituisce all’utente una o più risposte in grado di soddisfare i bisogni informativi espressi con la domanda. Lo stato dell’arte dei sistemi di QA, si misurano ogni anno nella competizione svolta alla Text Retreieval Conference (TREC), dove il prototipo Pisa Question Answering (PiQASso) del Dipartimento di Informatica si è classificato tra i primi dieci.
Qualificazione e contributi scientifici pregressi
Aspetti innovativi del progettoL’utilizzo di strumenti di elaborazione del linguaggio naturale (Natural Language Processing) per lo svolgimento di compiti di analisi e di estrazione di informazioni da vaste collezioni di documenti è stato finora largamente trascurato nelle applicazioni basate sull’analisi di testi, preferendo tecniche basate su approcci di tipo Information Retrieval basati sostanzialmente su analisi di tipo statistico. Un aspetto qualificante del progetto è quello di combinare approccio statistico con strumenti di analisi linguistica e semantica. Il progetto sfrutta un breakthrough nel campo del parsing del linguaggio naturale, che si basa sull’apprendimento del meccanismo di parsing a partire da corpus linguistici annotati. Il risultato è un parser adattabile a diverse lingue, di elevate prestazioni (oltre 200 frasi al secondo) e di buona accuratezza. Un parser con queste caratteristiche per la lingua italiana è un risultato di notevole importanza. Il parser può venire usato per estrarre una rappresentazione semantica dei testi, costruendo una base di relazioni semantiche tra i costituenti delle frasi. Diverse applicazioni diventano possibili a seguito di queste analisi. L’efficacia dell’approccio verrà dimostrata in due delle tante possibili applicazioni: il Question Answering e l’individuazione di topic da uno flusso di notizie giornalistiche. Sia gli strumenti di analisi che le applicazioni sviluppate nel progetto presentano notevoli potenzialità dal punto di vista commerciale. La tecnica di parsing potrebbe essere soggetta a brevetto, anche se, trattandosi di software, è preferibile una protezione di tipo Copyright, che consente lo sfruttamento commerciale tramite la cessione di licenze d’uso. Descrizione delle attvità, metodologie e tecnologieLe attività da svolgere comprendono:
Le metodologie usate sono quelle dell’ingegneria del software, dell’analisi e sviluppo di algoritmi e della programmazione. Le tecnologie usate comprendono:
Sviluppo temporale delle attività e obiettivo intermedioFasi del progettoFase 1: mesi 0-6
Fase 2: mesi 7-12
Fase 3: mesi 13-24
Obiettivo intermedio
Deliverables
Descrizione delle strutture di ricerca coinvolteDipartimento di Informatica, Università di PisaIl gruppo di Web Computing si occupa da diversi anni di tecniche per il trattamento di documenti. Nel 1996, in collaborazione con il gruppo Olivetti Telemedia di Pisa è stato progettato e realizzato il motore di ricerca Arianna, il primo e più vasto motore di ricerca sullo spazio Web italiano. Il ruolo del gruppo nel progetto riguarda la definizione dell’architettura software del progetto, della messa a punto di algoritmi per l’apprendimento automatico, per l’indicizzazione e l’estrazione di metadati semantici da grossi corpus di documenti. Dipartimento di Linguistica, Università di PisaIl Dipartimento seguirà gli aspetti relativi alla Topic Detection e all’integrazione con strumenti linguistici ed in particolare con lo strumento Text-2-Knowledge. Istituto di Linguistica Computazione del CNRL’istituto ha esperienza nella costruzione di corpus annotati per la lingua italiana e in particoilare ha realizzato il corpus SI-TAL, che verrà utilizzato come base di partenza per la costruzione di un corpus per l’apprendimento del parsing. Il suo ruolo sarà di partecipare alla messa a punto degli algoritmi per la trasformazione del curpus SI-TAL, per l’apprendimento del parsing, sulla base di una lunga esperienza acquisita nella costruzione di una catena di strumenti per l’analisi linguistica dell’italiano. Informazioni economiche circa il mercatoIl mercato degli strumenti di analisi di testo (text analytics) è un mercato in vastissima espansione a livello internazionale, ed è dominata da un limitato numero di ditte specializzate, in particolare: Autonomy, ClearForest, Verity. Il mercato nazionale è in gran parte da esplorare, e vede una rilevante dominanza delle ditte straniere, che tuttavia offrono strumenti neutri rispetto alla lingua. La possibilità di sfruttare appieno l’analisi linguistica dei testi consente di realizzare strumenti di maggiore accuratezza e che siano mirati alle esigenze del mercato nazionale. Prodotti che incorporino capacità linguistiche relative alla lingua italiana possono rappresentare un significativo vantaggio competitivo sul mercato nazionale, vincendo la concorrenza internazionale. I prodotti risultanti da questo progetto hanno pertanto buone possibilità di aggiudicarsi una quota rilevante del mercato nazionale. Con una buona strategia di marketing, i prodotti potrebbero imporsi con successo in settori economicamente rilevanti, quali: mercati finanziari (analisi di informazioni economico-finanziarie), business intelligence, indagini giudiziarie e intelligence, analisi di opinioni (sentiment mining), settore biologico e medico-scientifico (analisi letteratura medica, estrazione di conoscenze su proteine, genoma, ecc.), editoria online, documentazione aziendale, strumenti di supporto per il Call Center. A Pisa esistono aziende che operano nel settore e con cui sono in atto già delle collaborazioni con i partecipanti, e le quali potrebbero occuparsi della commercializazione dei risultati del progetto. In particolare la Synthema Srl si occupa di tecnologie del linguaggio ed ha partecipato al progetto SI-TAL in collaborazione con l’ILC del CNR. Allegato tecnico |