Internationella standardiseringsorganisationen ISO har specificerat följande sex kvalitetskriterier för utvärdering av mjukvara (ISO 9126)
(ISO, 1991)
EAGLES (Expert Advisory Group on Language Engineering Standards) (1996) föreslår utöver dessa ett kriterium customisability, vilket avser användarens kontroll över funktionaliteten. I övrigt inriktar man sig på funktionalitetskriteriet, eftersom det är detta kriterium som är datorlingvistiskt relevant. Samma avgränsning görs framledes i denna sammanställning.
Slutprodukten, den granskade texten, kan vi använda för att mäta funktionaliteten hos systemet, men det är viktigt att komma ihåg att egenskaper hos den ogranskade texten, skribenten och slutanvändaren också påverkar resultatet.
EAGLES (1996) identifierar följande tre funktionalitetskrav hos ett språkgranskningssystem (de använder termerna "writer's aid" och "grammar checker").
Det första kravet är ganska komplicerat då det inte bara inbegriper att ett fel ska hittas utan det ska även påvisas på ett sätt så att slutanvändaren kan rätta felet. Det andra kravet har anknytning till det som ofta kallas precision, dvs vi är intresserade av så få falska flaggningar som möjligt. Till det tredje kravet noterar man att studier av hur vanliga olika felkombinationer är kan vara av värde.
Vid utvärderingen av SCARRIE-prototyperna delades funktionalitetet in i attribut och subattribut som alla ges numeriska värden vid utvärderingen. Följande attributsstruktur användes:
I SCARRIE är stavningskontroll och grammatikkontroll är integrerade - man kan när man använder systemet inte avgöra vilken process som ägt rum - och därför sker utvärdering av alltihop på en gång.
I strukturen finns tre huvudsakliga attribut: täckning, flaggning och förslagskvalitet. Täckning har underattributen lexikal täckning, grammatisk täckning och feltäckning och motsvarar hur väl systemet känner igen ord, korrekta grammatiska konstruktioner och olika typer av fel i texten.
Flaggningsattributet mäter andelen indikerade fel som är verkliga fel medan förslagskvalitet mäter hur bra rättningsförslag systemet ger för funna fel. Bland EAGLES tre funktionalitetskrav går täckning och förslagskvalitet båda in under krav ett, medan flaggning utgör krav två. Krav tre, att systemet ska klara kombinationer av fel, utvärderades inte.
Vid utvärderingen ges samtliga attribut ett numeriskt värde. Lexikal täckning av standardvokabulär kan exempelvis testas genom att prototypen får arbeta på en representativ ordlista, varefter andelen korrekt identifierade ord beräknas.
(Paggio et al, 1999).
Vid testningen av den svenska versionen av SCARRIE användes åtta olika filer.
De sku första attributen användes för att utvärdering av vissa attribut medan den sista filen användes för testning av funktionaliteten i stort.
(Paggio et al, 1999)