UPPSALA UNIVERSITET : Inst. f. lingvistik och filologi : STP
Uppsala universitet
Hoppa över länkar

Syfte
Uppgift
Examination
Länkar


STP
Kursplaner (pdf)


UPPSALA UNIVERSITET
Institutionen för lingvistik och filologi
Introduktion till språkteknologi, ht08
Mattias Nilsson

Labb 3 - Ordklasstaggning

Syfte

Ordklasstaggning är en viktig deluppgift i många språkteknologiska tillämpningar, t.ex. i språkgranskning, maskinöversättning och talsyntes. Syftet med den här labben är att ge praktisk erfarenhet av ordklasstaggning med TnT-taggaren (Trigrams'n'Tags, Brants 2000), samt att ge en uppfattning om vilka resultat man kan uppnå.

Uppgift

TnT-taggaren är en statistiskt baserad ordklasstaggare som tränats för ett antal språk, däribland svenska och engelska. Labbuppgiften går ut på att tagga två texter ur en parallellkorpus, en svensk och en engelsk text, med hjälp av TnT-taggaren. Ni skall också genomföra en kvalitativ utvärdering av era resultat.

Börja med att skapa en katalog där du sparar alla filer som hör till den här labben. De texter du skall arbeta med har hämtats från EUROPARL, som innehåller parlamentsprotokoll från Europeiska Parlamentet. Hämta hem de två texterna samt de två tokeniserade versionerna av respektive text här:

  • ep-sv.txt
  • ep-eng.txt
  • ep-sv-tokenized.txt
  • ep-eng-tokenized.txt

    Taggning

    TnT-taggaren finns installerad på institutionen i följande katalog:

    /local/ling/tnt/tnt/tnt

    Som argument till programmet anger man den språkspecifika träningsmodell som skall användas. För svenska har taggaren tränats på SUC-korpusen och den modell som ska anges som argument är:

    /local/ling/tnt/tnt/models/helasucd-tnt.123

    Det taggset som TnT-taggaren använder sig av enligt denna modell finns beskrivet här: Parole tagguppsättning.

    För engelska finns flera modeller att välja mellan, men den som anses bäst är den som har tränats på Wall Street Journal:

    /local/ling/tnt/tnt/models/wsj.tnt

    Den tagguppsättning som används i detta fall finns beskriven här: Penn Treebank tagguppsättning.

    Dessutom kan man ge taggaren optionella argument som anger exakt vad man vill få ut för information i resultatfilen. I denna labb kör vi med standardalternativen, med ett undantag: vi använder oss av flaggan -m. Denna flagga gör att okända ord som ej finns i träningsmodellen markeras med en asterisk i slutresultatet.

    Hela kommandoraden för att köra den svenska taggaren är sålunda:

    /local/ling/tnt/tnt/tnt -m /local/ling/tnt/tnt/models/helasucd-tnt.123 TOKENISERAD_INFIL > UTFIL

    Och hela kommandoraden för att köra den engelska taggaren lyder som följer:

    /local/ling/tnt/tnt/tnt -m /local/ling/tnt/tnt/models/wsj.tnt TOKENISERAD_INFIL > UTFIL

    Utvärdering

    I denna deluppgift skall ni bilda er en uppfattning om taggningsresultatet genom att göra en manuell, kvalitativ utvärdering av taggningsresultatet. Analysera en lämplig delmängd av taggningsresultatet för den svenska respektive den engelska texten (t.ex. 100 ord per text) och besvara följande frågor:

    1. Vilka typer av fel gör den svenska taggaren?
    2. Vilka typer av fel gör den engelska taggaren?
    3. Hur stor andel av de okända orden har taggats korrekt?
    4. Hur stor andel av de kända orden har taggats korrekt?
    5. Vilken gav bäst resultat, den svenska eller den engelska taggaren? Varför tror du?
    6. Vilket är ditt allmänna intryck av taggaren? Anser du att den fungerar bra? Argumentera för din ståndpunkt!

    Examination och inlämning

    Labbrapporten skall innehålla följande:

    Rapporten skall lämnas in i pappersformat (ej handskrivet) till Mattias Nilsson, senast onsdag 3 december. Lämna rapporten i mitt fack uppe vid expeditionen eller till mig personligen (rumsnummer: 9-2041).

    Länkar