Kursprojekt: Dependensanalys på svenska

Projektet går ut på att utveckla en robust parser för obegränsad svensk text och fokuserar på utvecklingen av den syntaktiska delkomponenten. (Övriga komponenter i form av tokeniserare, meningssegmenterare och ordklasstaggare kommer att göras tillgängliga för dem som efter kursen vill ha ett fullt fungerande system, men dessa komponenter kommer inte att användas under själva utvecklingsprojektet.)

Vi kommer att använda MaltParser, ett fritt tillgängligt system för datadriven dependensanalys som utvecklats vid Växjö universitet och Uppsala universitet, vilket tränas på en syntaktiskt annoterad korpus bestående av svensk bruksprosa, ursprungligen utvecklad vid Lunds universitet på 1970-talet men moderniserad och anpassad inom projektet Metoder och verktyg för automatisk grammatikextraktion vid Uppsala universitet. I arbetet ingår optimering av systemet med avseende på olika parametrar som kan varieras i MaltParser, framför allt särdragsmodellen, samt utvärdering av effektivitet och korrekthet på testdata som tillhandahålls mot slutet av projektet. För utvärderingen används systemet programmen eval.pl och MaltEval.

Projektet utförs i mindre grupper, företrädesvis bestående av två personer, och kan brytas ned i fyra delar, som grovt svarar mot de fyra laborationstillfällen som ingår i kursen. Projektet redovisas dels muntligt på schemalagd tid, dels skriftligt i form av rapport som ska vara inlämnad senast den 7 november.

Tidsplan

Laborationstillfällena (L6, L8, L10, L12) kommer att ha följande upplägg:
  1. Kort muntlig rapport av förra veckans deluppgift.
  2. Genomgång av veckans deluppgift.
  3. Praktiskt arbete med veckans deluppgift i liten skala.
  4. Genomgång av vad som ska göras till nästa gång.
Observera att det inte ingår några skriftliga labbrapporter. All skriftlig rapportering sker i samband med slutredovisningen.

Resurser

Redovisning