Seminarierapport: Felmodellering
Språkgranskningsverktyg
Ht 1999

Camilla Bengtsson
camilla@stp.ling.uu.se
Språkteknologiprogrammet
Institutionen för lingvistik
Uppsala universitet


Contents

1. Inledning

Huvuduppgiften för ett språkgranskningsverktyg är att hitta olika typer av fel. Dessutom skall verktyget försöka förklara vad det är för fel det är frågan om och ge förslag på möjliga rättningar. För att kunna göra allt detta måste man på ett eller annat sätt ta reda vad som kan betraktas som ett fel i ett visst språk eller språkbruk. Detta kan till stor del åstadkommas genom felmodellering.

I nästkommande avsnitt ges en introduktion till felmodellering där bland annat termer som felanalys och feltypologi tas upp (avsnitt 2). Exempel på feltypologier ges i avsnitt 2.2.1. Slutligen följer en sammanfattning (avsnitt 3).

  
2. Felmodellering

Som redan nämnts innebär felmodellering bland annat sådana saker som att försöka reda ut vad som är fel i ett visst språk eller språkbruk. Eftersom människor har olika grad av språklig kompetens innefattar felmodellering även en viss modellering av användarna. Människor gör olika typer av fel och behöver till exempel anpassad återkoppling på de fel de gör. Om man vill konstruera ett språkgranskningsverktyg är det således mycket viktigt att ha i åtanke både till vilken typ av användare man vänder sig och vilket eller vilka språkbruk som verktyget skall klara av.

Genom att analysera fel som olika grupper av användare gör och samla de fakta man får fram i så kallade feltypologier kan man komma en bra bit på väg i sin felmodellering.

  
2.1 Felanalys

Felanalys är ett välkänt begrepp inom bland annat andraspråkforskning där man sedan 60-talet från och till har använt sig av detta för att analysera och jämföra olika inlärares språkfel1. Numera förekommer en form av felanalys inom studiet av så kallade inlärarkorpusar (se t.ex. Granger 1998).

Men felanalys är också något som förekommer vid utvecklandet av bland annat språkgranskningsverktyg. Det går helt enkelt ut på att man letar reda på fel i text och bedömer vilka slags fel det kan vara frågan om, till exempel stavfel, grammatikfel eller stilfel. Det finns olika tillvägagångssätt för att få material till analysen varav undersökning av korpusar förmodligen är det vanligaste. De felanalyser man gör kan man sedan samla i feltypologier.

  
2.2 Feltypologi

En feltypologi2 består av en samling klassificerade fel. Med hjälp av typologin kan man sedan hitta och känna igen olika typer av fel samt lättare kunna ge förslag på vad som bör rättas. Typologin kan även innehålla exempel på de olika felen.

Exempel på språkgranskningsprojekt där man har använt sig av feltypologier är SCARRIE, GramCheck, Con-Text, TEMAA och EAGLES. Dessa kommer att tas upp som exempel i nedanstående avsnitt.

  
2.2.1 Exempel på feltypologier

I Wedbjer Rambell (1998) beskrivs den feltypologi som har använts i den svenska delen av SCARRIE-projektet. Man har tittat på och analyserat korrekturlästa och icke korrekturlästa versioner av en mängd artiklar från två svenska dagstidningar (Svenska Dagbladet och Uppsala Nya Tidning). De fel som hittades har klassificerats hierarkiskt och denna klassificering utgör själva feltypologin. Felen har dessutom samlats i en feldatabas (Wedbjer Rambell et al. 1998). Språkfelen delas in i fem grupper: stavfel; grammatikproblem; interpunktionsproblem; grafiska problem samt stil-, betydelse- och syftningsproblem. Dessa grupper delas in i kategorier, vilka i sin tur delas in i underkategorier. En mer detaljerad specifikation med exempel på det aktuella språkfelet ges också i anslutning till underkategorierna. Ett exempel på denna indelning är som följer (översatt till svenska termer):

Grupp:           Grammatikproblem   (GP)
Kategori:        Nominalfras        (NP)
Underkategori:   Numerus            (NB)
Specifikation:   singular -> plural (04)

                 Det tidstypiska tornet var på modet under sent
                 1800-tal där dåtida sjöman...
                                     ------
                 Det tidstypiska tornet var på modet under sent
                 1800-tal där dåtida sjömän...
                                     ------
Varje nivå ovan tilldelas en kod på två tecken (inom parentes ovan) och dessa läggs sedan samman till en felkod på åtta tecken (t.ex. får ovanstående exempel felkoden 'GPNPNB04') som bland annat används i samband med felsökning. Genom att tilldela en sådan kod till de fel man hittar i texten kan man genom databasen få fram en förklaring till felet. Stavfelen är den vanligaste felgruppen i feldatabasen (drygt 40 %), därefter kommer grammatik-; interpunktions- samt stil-, betydelse- och syftningsfelen på runt 16 % vardera. De grafiska problemen, till sist, är minst vanliga (9 %). Tabeller över vilka feltyper som är mest frekventa inom respektive grupp och i kategorierna finns i Wedbjer Rambell et al. (1998).

Exempel på användning av feltypologier för de spanska språkgranskningsverktygen GramCheck och Con-Text finns i Ramírez Bustamante & Sánchez-León (1996) respektive Sánchez-León et al. (1999). Det förstnämnda verktyget behandlar endast grammatik- och stilfel, men feltypologin innehåller även andra typer av fel i likhet med de grupper som finns i SCARRIE. Denna typologi har med vissa tillägg även använts för Con-Text, som dessutom tar hand om fel av en mer lexikal natur.

Feltypologier har också använts för att kunna utvärdera språkgranskningsverktyg, till exempel i de EU-finansierade utvärderingsprojekten TEMAA och EAGLES. I Paggio & Sonne Svendsen (1995) och Manzi (1995) beskrivs de danska respektive italienska feltypologierna som utgjort basen för testmaterial för utvärderingar gjorda i TEMAA-projektet. Typologierna består endast av stavfel och de har använts som inspiration för att ta fram en mängd 'korruptionsregler' (corruption rules). Dessa regler har till syfte att producera listor av felaktiga ord som man sedan skall kunna utvärdera stavningskontrollprogram med. I EAGLES utvärderingsrapport (1995) hävdar man också att det är viktigt att utforma feltaxonomierna så att de speglar olika sorters skribenter, det vill säga det är viktigt att ange och definiera källan till de fel man hittar. Genom att definiera olika feltypologier för olika sorters användare kan man också anpassa felsökning och felrespons på olika sätt. En person som har engelska som andraspråk gör förmodligen andra typer av fel än en som har engelska som modersmål. Dessutom kan det finnas stora skillnader inom de båda grupperna. Ett program för språkgranskning av olika inlärargruppers engelska är Lernout & Hauspies CorrectEnglish3 vilket har baserats på material producerat av inlärare med olika modersmål och som också anpassats till dessa grupper. Enligt uppgift skall programmet även anpassas för de nordiska språken i samarbete med företaget Nordisk Språkteknologi.

Suri & McCoy (1993) och McCoy et al. (1996) beskriver en feltypologi för personer med teckenspråk som förstaspråk och engelska som andraspråk samt ett granskningsverktyg som skall tjäna som interaktivt hjälpmedel för dessa användare. I Chanier et al. (1992) beskrivs hur modellering av olika andraspråksinlärare och deras fel går till och hur ett språkgranskningsverktyg skulle kunna användas inom datorstödd språkinlärning.

  
3. Sammanfattning

När man utvecklar ett språkgranskningsverktyg som skall kunna hitta och bedöma olika typer av fel kan man ha stor hjälp av så kallad felmodellering. Genom att analysera och klassificera autentiska fel gjorda av den aktuella målgruppen kan man ta fram en feltypologi. Denna kan sedan utgöra basen bland annat för felsökning och felrespons. Dessutom kan den användas för att få fram bra testmaterial för att utvärdera språkgranskningsverktyg. Felmodellering innebär, av förklarliga skäl, också ett visst mått av användarmodellering. Personer som har språket i fråga som modersmål gör vanligen andra typer av fel än de personer som har språket som andraspråk. Man måste också ha i åtanke vilken typ av text som skall rättas.

Konsulterad litteratur

Chanier, Thierry, Michael Pengelly, Michael Twidale & John Self 1992. Conceptual Modelling in Error Analysis in Computer-Assisted Language learning Systems. In M. L. Swartz & M. Yazdani (Eds.), Intelligent tutoring systems for foreign language learning. Berlin, Springer-Verlag, s. 125-150.
Nås via: ftp://ftp.comp.lancs.ac.uk/pub/aai/aai-report-68.ps.Z

EAGLES: Evaluation of Natural Language Processing Systems 1995. Final Report. EAGLES Document EAG-EWG-PR.2. Version of September 1995.
Nås via: ftp://issco-ftp.unige.ch/pub/ewg95.ps

Granger, Sylviane (ed.) 1998. Learner English on Computer. London: Longman.

L&H CorrectEnglish: http://www.lhsl.com/tech/icm/proofing/ce.asp

Manzi, Sandra. 1995. Typology of Italian Spelling Errors. Appendix B i Test Materials. TEMAA Deliverable D12.
Nås via:
http://www.cst.ku.dk/projects/temaa/D12/d12exp-App-2.html

McCoy, Kathleen F., Christopher A. Pennington & Linda Z. Suri. 1996. English error correction: A syntactic user model based on principled "mal-rule" scoring. Proceedings of UM-96, the Fifth International Conference on User Modeling. Kailua-Kona, Hawaii, January 1996.
Nås via: http://www.eecis.udel.edu/research/icicle/pubs/McPeSu96.ps

Paggio, Patrizia & Uffe Sonne Svendsen. 1995. Typology of Danish Spelling Errors. Appendix A i Test Materials. TEMAA Deliverable D12.
Nås via:
http://www.cst.ku.dk/projects/temaa/D12/d12exp-App.html

Ramírez Bustamante, Flora & Fernando Sánchez León 1996. Is linguistic information enough for grammar checking? Proceedings of the First International Workshop on Controlled Language Applications, CLAW'96. Katholieke Universiteit Leuven. s. 216-228.
Nås via: http://www.lllf.uam.es/~flora/projects/claw.html

Sánchez-León, Fernando, Flora Ramírez Bustamante & Thierry Declerck 1999. Integrated set of tools for robust text processing. Proceedings of Vextal'99. Venezia, S. Servolo, V.I.U. 22-24 november 1999.
Nås via: http://byron.cgm.unive.it/events/papers/decl.pdf

Suri, Linda Z. & Kathleen F. McCoy 1993. A Methodology for Developing an Error Taxonomy for a Computer Assisted Language Learning Tool for Second Language Learners. Technical Report No. 93-16. Department of Computer and Information Science, University of Delaware, Newark, DE.
Nås via: http://www.eecis.udel.edu/research/icicle/pubs/SuriMcCo93a.ps

Wedbjer Rambell, Olga 1998. Error Typology for Automatic Proof-reading Purposes. SCARRIE, Deliverable 2.1, version 1.1.

Wedbjer Rambell, Olga, Bengt Dahlqvist, Erik Tjong Kim Sang & Nils Hein 1998. An Error Database of Swedish. SCARRIE, Deliverable 2.1.3.2, version 1.1.

About this document ...

Seminarierapport: Felmodellering
Språkgranskningsverktyg
Ht 1999

This document was generated using the LaTeX2HTML translator Version 98.1p1 release (March 2nd, 1998)

Copyright © 1993, 1994, 1995, 1996, 1997, Nikos Drakos, Computer Based Learning Unit, University of Leeds.

The command line arguments were:
latex2html -split 0 -show_section_numbers sgv_rapp.tex.

The translation was initiated by Camilla Bengtsson on 2000-02-09


Footnotes

... språkfel1
se t.ex. http://www.lancs.ac.uk/postgrad/tono/analysis.htm
... feltypologi2
en annan term som man ofta stöter på, och som syftar på samma sak, är feltaxonomi ('error taxonomy').
... CorrectEnglish3
se http://www.lhsl.com/tech/icm/proofing/ce.asp

Camilla Bengtsson
2000-02-09