Talk:Tanl POS Tagset

From Medialab

Proposte di POS tagset

  • Proposta di modifica di Attardi:
  1. Aggiunta di EA per preposizioni articolate.
    Anche se il dato è presente nel morph, i POS tag sono usati in altre applicazioni in cui le altre feature non sono disponibili.
  2. Rinominato PUN in F, per mantenere un singolo carattere di coarse tag.
    Le specializzazioni sono diventate FS (Fine Sentenza), FC (Fine Clausa)
  3. Aggiunto FB (Punctuation Begin) e FE (Punctuation End)
    Al parser può essere utile distingure tra apertura e chiusura per decidere come attaccare. Altri Corpora (Penn) lo fanno. Al solito, l'informazione si può ricavare dal lemma, ma questo preclude soluzioni unlexicalized.
  4. Rinominati i verbi in V, VA, VM: una sola lettera di specializzazione.
  5. Ridenominato PQ -> PE (Personal Pronoun) e PT -> PQ (interrogative pronoun) e analogamente per i determiner: DT -> DQ (Interrogative Determiner)
    lasciando la I per Indeterminate, usando la Q per le interrogative, come fanno altri Corpus.

Quanto alle scelte riguardo ausiliari (essere/avere), per ora manterrei la possibilità di taggarli sia come V che come VA a seconda dell'uso. Farei degli esperimenti per vedere come si comporta il tagger. Se sbaglia troppo nel disambiguare, passerei alla soluzione del catalano.

Queste modifiche sono riportate in giallo in Tanl POS Tags.

Tag (PN) Pronoun Number

Un'ipotesi da discutere è se aggiungere un sottotipo PN (pronoun number) da usare per i numeri espressi in lettere, da distinguere da quelli in cifre perché possono avere il ruolo appunto di pronomi e non di aggettivi, come head di una frase nominale.

Ad esempio:

 I due (PN) non sono tornati.
 Ne ho comprate tre (PN).
 Aumento del 30(N) per cento (PN).
 300(N) mila(N) dollari.

Considerazioni sui numerali di Simonetta:

Specializzazioni dei verbi

Andrebbero aggiunte delle specializzazioni per i verbi. Al parser servono quanto meno:

Vf    finite form
Vi    infinite
Vg    gerundio
Vp    present participle
Vpp    past participle

nelle tre varianti V, VA e VM. Inoltre serve un'indicazione della presenza di clitici, che farei aggiungendo il posfisso c:

Vfc    finite form, clitic
Vic    infinite, clitic
Vgc    gerundio, clitic
Vpc    present participle, clitic
Vppc    past participle, clitic

Tokenizzazione clitici

  • Beppe chiede: Come effetture la tokenizzazione dei clitici?

mettersi -> metter-, si diciamolo -> diciamo-, lo sfuggirgli -> sfuggir-, gli gliene -> glie-, ne darmelo -> dar-, me-, lo

In ISST è stata ricostruita dalla vecchia risorsa. Un tokenizzatore semplice non saprebbe distinguire se una desinenza -melo, -velo è un clitico oppure parte del termine. Il POS tagger invece sarebbe in grado di riconoscere i clitici. Questo vorrebbe dire effettuare la suddivisione dopo il POS tagging.

  • Simonetta risponde

La mia proposta allora era quella di riportarli su un'unica riga perché spesso è necessaria informazione che al livello della tokenizzazione non è disponibile. Oltre ai casi che menzioni, relativamente semplici, ce ne sono altri più problematici per i quali è necessaria informazione relativa alla struttura morfo-sintattica se non sintattica della frase. Prendi esempi come "ricordati" che può essere interpretato come imperativo seguito da clitico o come semplice participio passato. Oppure "dalla" che può essere preposizione articolata o imperativo seguito da clitico. Noi nella nostra catena di parsing trattiamo le forme con clitico come un unico token al quale sono associate tutte le possibili analisi (sia con che senza clitico) e poi decidiamo per l'interpretazione adeguata o al livello di pos tagging (questo è il caso di "dalla") o anche successivamente (ad es. il caso di "ricordati" è trattato al livello di chunking).

  • Beppe propone di agire in tre fasi:
  1. tokenizzazione semplice
  2. POS tagging
  3. suddivisione dei clitici
  • Simonetta risponde:

A quel punto si possono risolvere casi ad esempio del tipo "dalla" (dare+clit o prep_art), "persone" (noun o perdere+clit), "ufficiale" (noun, adj o ufficiare+clit), ovvero casi in cui la pos dell'interpretazione con clitico si distingue dalle altre, ma non casi del tipo "ricordati" (part_pass o imperativo+clit) dove la pos è la stessa e per i quali hai bisogno di maggiore informazione sulla struttura complessiva della frase.

Proposal for Handling Clitics

Proposta di Vecchi, Montemagni, e Lenci.

Current representation

The "current" manner in which clitics are tagged in ISST is as follows:

  • PE (PQ): Personal pronouns [atonic], which are then either dative or accusative
(a) Chi ti ha detto questo? (dative)
(b) Essi si vestono in modo elegante. (accusative)
(c) Eva lo ha scritto. (accusative)
  • B: ci and vi with adverbial value
(d) Ci vado domani.
(e) Vi fanno parte
(f) Ci sono molti invitati
  • PD: ne and ci when it is neither a personal pronoun nor used with adverbial value.
(g) Non ci penso tanto.
(h) Non ne so nulla.
In traditional grammars and dictionaries this PD tag is explained by the fact that the clitic in these contexts can be replaced by a PD (e.g. Ci penso = penso a questo). See sentences l) through o) for more details.

In the current representation of clitics we see the following problems. First of all, these distinctions appear to require semantic knowledge as well as knowledge of the syntactic properties of the verbs (e.g. the fact of being transative, or of subcategorizing for an indirect object), knowledge that is not necessarily accessible when morpho-syntactic tagging is performed. Consider the following examples:

(i) Non ci [PE] chiama spesso
(j) Non ci [B] vado spesso
(k) Non ci [PD] penso spesso

The different categorizations of the clitic ci in i), j), and k) above follow from the semantic and syntactic properties of the verbs with which the clitic co-occurs. On the other hand, from the morpho-syntactic point of view the three sentences share the same structure. This shows that the manner in which clitics are currently handled incorporates too much detail and too many distinctions which can lead to inconsistent analyses, both by the human annotator and by the tagger.

Secondly, and most importantly, the current classification of clitics does not account for the distributional properties of this class of pronouns/adverbs, for example that they must immediately precede the finite verb. This feature is not shared by the other members of the PE/B/PD classes. Consider the following examples:

(l) Maria mi [PE] vede. -- Maria vede me [PE].
(m) *Maria me [PE] vede. -- *Maria vede mi [PE].
(n) Maria ne [PD] mangia cinque. -- Maria mangia cinque di queste [PD].
(o) *Maria di queste [PD] mangia cinque. -- *Maria mangia cinque ne [PD].

where it can be noticed that different members of the same class (PE and PD) do not share the same distributional properties.

Therefore, we believe that at the level of morpho-syntactic tagging we need to account for the distributional properties of this class of pronouns/adverbs. Semantic distinctions will instead be dealt with at the level of dependency annotation (see below).

Our Proposal

Simply tag all clitics (previously tagged as PE, PD, or B) as a single class, PC, clitic pronoun. This is to say that the clitic ci in i), j), and k) above will be assigned the same PC tag. Other distinctions are instead introduced at the syntactic dependency layer where the proper syntactic function is assigned to the clitic. For example:

(p) Maria si <CLIT> avvale di un consulente.
(q) Maria si <OBJ> lava.
(r) Maria lo <OBJ> lava.
(s) Maria si <COMP> lava le mani.
(t) Maria le <COMP> dice.

These distinctions are already handled at the dependency annotation level. However some manual revisions are required to align the current dependency annotation of clitics with the new dependency tagset (especially for what concerns the IOBJ, MOD, and COMP relations).