Uppgift 2
Tanken bakom uppgift 2 är att ni skall få praktisk övning i experimentell utvärdering. I denna laboration innebär detta att vi skall lära oss hantera ett verktyg för experimentell utvärdering av parsningssystem som producerar dependensbaserad grammatisk analys. Er utvärdering skall innehålla resultat för gängse dependensbaserade evalueringsmått (UAS, LAS, LA). Utöver detta väljer ni själva hur ni vill lägga upp er utvärdering och vilka mått ni vill använda. Förslag på några saker som kan vara intressanta att utforska ges nedan men ni är också välkomna att pröva andra idéer och göra egna analyser. Ni kan samarbeta om ni vill men ni bör inte vara fler än tre personer i varje grupp.
Verktyg
Utvärderingsverktyget som vi skall använda för
denna uppgift är MaltEval [Nilsson & Nivre, 2008] . Det första ni behöver göra är
således att installera MaltEval (förutsätter att ni har Java installerat).
Programmet finns här:
http://w3.msi.vxu.se/~jni/malteval/
Notera också användarguiden som finns på webbsidan (ingår även i installationen).
Data
De data ni använder i utvärderingen består av 389 meningar hämtade från en
svensk trädbank: Talbanken05.
På webbsidan kan ni hämta tabeller som förklarar vilka förkortningar för lexikala
kategorier och syntaktiska funktioner som används i trädbanken.
Till ert förfogande i denna laboration har ni fyra filer:
Den guldstandard som ni skall utvärdera testdataresultat mot:
- Guldstandard (manuellt annoterade analyser)
- Testdataresultat A (analyser som producerats av en dependensbaserad parser tränad på 11042 meningar ur Talbanken05).
- Testdataresultat B (analyser som producerats av ovan nämnda parser tränad på 5161 meningar ur Talbanken05).
- Testdataresultat C (analyser som producerats av ovan nämnda parser tränad på 2619 meningar ur Talbanken05.)
Att komma igång
En god idé kan vara att börja med att bekanta er med MaltEval och dess olika funktioner. Till er hjälp använder ni lämpligen användarguiden. Pröva exempelvis visualiseringsfunktionen med vars hjälp man bland annat kan visualisera dependensgrafer och jämföra skillnader mellan analyser i guldstandard och testdata.
Förslag på utvärderingsuppgifter
- Utforska och rapportera resultat för enskilda dependenstyper. Vilka typer blir oftast korrekta, vilka blir ofta fel? Illustrera några exempel med hjälp av visualiseringsverktyget.
- Utforska hur mängden träningsdata påverkar resultatet. Hur skiljer sig korrektheten mellan testdataresultat A, B och C? Även här kan man utforska enskilda dependenstyper och titta på hur resultatet för olika typer varierar med mängden träningsdata. Rapportera resultat och illustrera med exempel.
- Hur påverkar interpunktionstecken resultatet? Hur förändras resultatet då vi exkluderar dependenstyper som betecknar interpunktionstecken?
- Utforska och analysera resultat för olika grupperingstrategier såsom t.ex. meningslängd, båglängd och bågriktning.
Redovisning
- Förebered en muntlig framställning till den 29 september då ni kortfattat (högst 15 minuter) presenterar er utvärdering. Antingen presenterar var och en i respektive grupp någon del av utvärderingen eller också utser varje grupp en talesman som presenterar gruppens resultat. Ta gärna hjälp av något presentationsmedel (t.ex. PowerPoint, Keynote, Impress, ...).
- Varje grupp skriver en rapport på 3-4 sidor där ni redogör för er utvärdering. Rapporten lämnas in i pappersformat till Mattias Nilsson, senast 6 oktober. Lämna rapporten i mitt fack uppe vid expeditionen eller till mig personligen (rumsnummer: 9-2041).
Referenser
Nilsson, J. and Nivre, J. (2008) MaltEval: An Evaluation and Visualization Tool for Dependency Parsing. In Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC).
