Utvärdering av språkgranskningsverktyg


1. Inledning

Utvärdering av språkgranskningsverktyg är långt ifrån någon trivial uppgift. I detta seminarium kommer att behandlas:


2. Kvalitetskriterier för utvärdering av mjukvara

Internationella standardiseringsorganisationen ISO har specificerat följande sex kvalitetskriterier för utvärdering av mjukvara (ISO 9126)

(ISO, 1991)

EAGLES (Expert Advisory Group on Language Engineering Standards) (1996) föreslår utöver dessa ett kriterium customisability, vilket avser användarens kontroll över funktionaliteten. I övrigt inriktar man sig på funktionalitetskriteriet, eftersom det är detta kriterium som är datorlingvistiskt relevant. Samma avgränsning görs framledes i denna sammanställning.


3. EAGLES modell för språkgranskning

EAGLES (1996) modell (task model) för språkgranskning innehåller följande objekt:

Slutprodukten, den granskade texten, kan vi använda för att mäta funktionaliteten hos systemet, men det är viktigt att komma ihåg att egenskaper hos den ogranskade texten, skribenten och slutanvändaren också påverkar resultatet.


4. Funktionalitetskrav hos språkgranskningsverktyg

EAGLES (1996) identifierar följande tre funktionalitetskrav hos ett språkgranskningssystem (de använder termerna "writer's aid" och "grammar checker").

  1. Systemet ska specificera fel på ett sådant sätt att slutanvändaren kan rätta dem
  2. Systemet ska inte signalera fel när inga fel föreligger
  3. Systemet ska kunna behandla kombinationer av fel i viss utsträckning

Det första kravet är ganska komplicerat då det inte bara inbegriper att ett fel ska hittas utan det ska även påvisas på ett sätt så att slutanvändaren kan rätta felet. Det andra kravet har anknytning till det som ofta kallas precision, dvs vi är intresserade av så få falska flaggningar som möjligt. Till det tredje kravet noterar man att studier av hur vanliga olika felkombinationer är kan vara av värde.


5. Utvärdering av den svenska SCARRIE-prototypens funktionalitet

5.1 Funktionalitetsattribut

Vid utvärderingen av SCARRIE-prototyperna delades funktionalitetet in i attribut och subattribut som alla ges numeriska värden vid utvärderingen. Följande attributsstruktur användes:

I SCARRIE är stavningskontroll och grammatikkontroll är integrerade - man kan när man använder systemet inte avgöra vilken process som ägt rum - och därför sker utvärdering av alltihop på en gång.

I strukturen finns tre huvudsakliga attribut: täckning, flaggning och förslagskvalitet. Täckning har underattributen lexikal täckning, grammatisk täckning och feltäckning och motsvarar hur väl systemet känner igen ord, korrekta grammatiska konstruktioner och olika typer av fel i texten.

Flaggningsattributet mäter andelen indikerade fel som är verkliga fel medan förslagskvalitet mäter hur bra rättningsförslag systemet ger för funna fel. Bland EAGLES tre funktionalitetskrav går täckning och förslagskvalitet båda in under krav ett, medan flaggning utgör krav två. Krav tre, att systemet ska klara kombinationer av fel, utvärderades inte.

Vid utvärderingen ges samtliga attribut ett numeriskt värde. Lexikal täckning av standardvokabulär kan exempelvis testas genom att prototypen får arbeta på en representativ ordlista, varefter andelen korrekt identifierade ord beräknas.

(Paggio et al, 1999).


5.2 Testmaterial

Vid testningen av den svenska versionen av SCARRIE användes åtta olika filer.

  1. En korrekt ordlista
  2. En lista med felskrivna eller felstavade ord
  3. En lista korrekta sammansättningar
  4. En lista felaktiga sammansättningar
  5. En lista av uttryck för testning av felaktiga särskrivningar
  6. En lista av meningar för testning av grammatikkontrollen
  7. En lista demonstrationsmeningar från för SWEGC
  8. En utvärderingstext från UNT

De sku första attributen användes för att utvärdering av vissa attribut medan den sista filen användes för testning av funktionaliteten i stort.

(Paggio et al, 1999)


Litteratur