Institutionen för lingvistik och filologi
Introduktion till språkteknologi, ht08
Mattias Nilsson
Labb 3 - Ordklasstaggning
Syfte
Ordklasstaggning är en viktig deluppgift i många språkteknologiska tillämpningar, t.ex. i språkgranskning, maskinöversättning och talsyntes. Syftet med den här labben är att ge praktisk erfarenhet av ordklasstaggning med TnT-taggaren (Trigrams'n'Tags, Brants 2000), samt att ge en uppfattning om vilka resultat man kan uppnå.Uppgift
TnT-taggaren är en statistiskt baserad ordklasstaggare som tränats för ett antal språk, däribland svenska och engelska. Labbuppgiften går ut på att tagga två texter ur en parallellkorpus, en svensk och en engelsk text, med hjälp av TnT-taggaren. Ni skall också genomföra en kvalitativ utvärdering av era resultat.Börja med att skapa en katalog där du sparar alla filer som hör till den här labben. De texter du skall arbeta med har hämtats från EUROPARL, som innehåller parlamentsprotokoll från Europeiska Parlamentet. Hämta hem de två texterna samt de två tokeniserade versionerna av respektive text här:
Taggning
TnT-taggaren finns installerad på institutionen i följande katalog:
/local/ling/tnt/tnt/tnt
Som argument till programmet anger man den språkspecifika träningsmodell som skall användas. För svenska har taggaren tränats på SUC-korpusen och den modell som ska anges som argument är:
/local/ling/tnt/tnt/models/helasucd-tnt.123
Det taggset som TnT-taggaren använder sig av enligt denna modell finns beskrivet här: Parole tagguppsättning.
För engelska finns flera modeller att välja mellan, men den som anses bäst är den som har tränats på Wall Street Journal:
/local/ling/tnt/tnt/models/wsj.tnt
Den tagguppsättning som används i detta fall finns beskriven här: Penn Treebank tagguppsättning.
Dessutom kan man ge taggaren optionella argument som anger exakt vad
man vill få ut för information i resultatfilen. I denna labb kör vi
med standardalternativen, med ett undantag: vi använder oss av
flaggan -m. Denna flagga gör att okända ord som ej finns i träningsmodellen markeras med en asterisk i
slutresultatet.
Hela kommandoraden för att köra den svenska taggaren är sålunda:
/local/ling/tnt/tnt/tnt -m /local/ling/tnt/tnt/models/helasucd-tnt.123 TOKENISERAD_INFIL > UTFIL
Och hela kommandoraden för att köra den engelska taggaren lyder som följer:
/local/ling/tnt/tnt/tnt -m /local/ling/tnt/tnt/models/wsj.tnt
TOKENISERAD_INFIL > UTFIL
Utvärdering
I denna deluppgift skall ni bilda er en uppfattning om taggningsresultatet genom att göra en manuell, kvalitativ utvärdering av taggningsresultatet. Analysera en lämplig delmängd av taggningsresultatet för den svenska respektive den engelska texten (t.ex. 100 ord per text) och besvara följande frågor:
- Vilka typer av fel gör den svenska taggaren?
- Vilka typer av fel gör den engelska taggaren?
- Hur stor andel av de okända orden har taggats korrekt?
- Hur stor andel av de kända orden har taggats korrekt?
- Vilken gav bäst resultat, den svenska eller den engelska taggaren? Varför tror du?
- Vilket är ditt allmänna intryck av taggaren? Anser du att den fungerar bra? Argumentera för din ståndpunkt!
Examination och inlämning
Labbrapporten skall innehålla följande:- Korrekta sökvägar till dina taggade filer, dvs var i din
hemkatalog som filerna ligger och vad de heter, t ex
/home/stp07/user/labb3/sv_tagg.txt - Svar på de frågor som ställdes under rubriken Utvärdering.
Rapporten skall lämnas in i pappersformat (ej handskrivet) till Mattias Nilsson, senast onsdag 3 december. Lämna rapporten i mitt fack uppe vid expeditionen eller till mig personligen (rumsnummer: 9-2041).
Länkar
- Thorsten Brants, 2000, TnT - A Statistical Part-of-Speech Tagger: [pdf]
- TnT, användarmanual: [pdf]
- Svensk tagguppsättning: Parole
- Engelsk tagguppsättning: Penn Treebank
