Kursprojekt: Dependensanalys på svenska
Projektet går ut på att utveckla en robust parser för obegränsad svensk text
och fokuserar på utvecklingen av den syntaktiska delkomponenten.
(Övriga komponenter i form av tokeniserare, meningssegmenterare och
ordklasstaggare kommer att göras tillgängliga för dem som efter kursen
vill ha ett fullt fungerande system, men dessa komponenter kommer inte
att användas under själva utvecklingsprojektet.)
Vi kommer att använda MaltParser,
ett fritt tillgängligt system för datadriven dependensanalys som utvecklats
vid Växjö universitet och Uppsala universitet, vilket tränas på en syntaktiskt
annoterad korpus bestående av svensk bruksprosa, ursprungligen utvecklad vid
Lunds universitet på 1970-talet men moderniserad och anpassad inom projektet
Metoder och verktyg
för automatisk grammatikextraktion vid Uppsala universitet. I arbetet
ingår optimering av systemet med avseende på olika parametrar som kan
varieras i MaltParser, framför allt särdragsmodellen,
samt utvärdering av effektivitet och korrekthet på
testdata som tillhandahålls mot slutet av projektet. För utvärderingen används
systemet programmen eval.pl och MaltEval.
Projektet utförs i mindre grupper, företrädesvis bestående av två personer,
och kan brytas ned i fyra delar, som grovt svarar mot de fyra
laborationstillfällen som ingår i kursen. Projektet redovisas dels muntligt
på schemalagd tid, dels skriftligt i form av rapport som ska vara inlämnad
senast den 7 november.
Tidsplan
- Vecka 38: Grundläggande optimeringsmetodik och preparering av data (L6, 22/9, Bilder, Lab-PM).
- Obligatorisk uppgift: Korsvalidering av baseline-modellen.
- Extrauppgift: Inlärningskurvor.
- Vecka 39: Grundläggande särdrag (L8, 29/9, Bilder, Lab-PM).
- Obligatorisk uppgift: Lexikala särdrag.
- Extrauppgift: Ordklassfönster eller morfosyntaktiska särdrag.
- Vecka 40: Särdragsinteraktion (L10, 8/10, Bilder, Lab-PM).
- Obligatorisk uppgift: Ordklass-n-gram.
- Extrauppgift: Interaktion POS+LEX, POS+MS, LEX+MS, LEX+LEX eller MS+MS.
- Vecka 41: Utvärdering av korrekthet och effektivitet (L12, 13/10, Bilder, Lab-PM).
- Obligatorisk uppgift: Korrekthet och effektivitet med statistisk signifikans mot baseline.
- Extrauppgift: Felanalys per ordklass eller dependensrelation.
- Vecka 43: Muntlig redovisning (R14, 20/10; R15, 25/10).
- Vecka 44: Skriftlig redovisning (Deadline: 7/11).
Laborationstillfällena (L6, L8, L10, L12) kommer att ha följande
upplägg:
- Kort muntlig rapport av förra veckans deluppgift.
- Genomgång av veckans deluppgift.
- Praktiskt arbete med veckans deluppgift i liten skala.
- Genomgång av vad som ska göras till nästa gång.
Observera att det inte ingår några skriftliga labbrapporter. All skriftlig rapportering
sker i samband med slutredovisningen.
Resurser
- Träning:
- MaltParser 1.4.1: Ett språkoberoende system för datadriven dependensanalys.
- Träningsdata: Syntaktiskt annoterad svensk bruksprosa (4941 meningar, 75970 ord).
- pseudo-split.pl: Perl-program för att pseudo-randomiserat dela upp träningsdata i n delmängder.
- baseline.xml: Baseline feature model specification for MaltParser.
- Utvärdering:
- MaltEval: Java-program för utvärdering och visualisering av dependensparsning.
- eval.pl: Perl-program för utvärdering av dependensparsning.
- Testdata: Syntaktiskt annoterad svensk bruksprosa (ca 20376 ord).
Redovisning
- Muntlig redovisning:
Den muntliga redovisningen sker på schemalagd tid under vecka 42-43. Varje grupp ska då redovisa
sitt arbete med de olika deluppgifterna samt resultatet av den slutliga utvärderingen.
- Skriftlig redovisning:
Den skriftliga redovisningen sker i form av en kort rapport (ca 5 sidor) med samma innehåll
som den muntliga redovisningen. Sista dag för inlämning: 7 november.