Camilla Bengtsson
camilla@stp.ling.uu.se
Språkteknologiprogrammet
Institutionen för lingvistik
Uppsala universitet
I nästkommande avsnitt ges en introduktion till felmodellering där bland annat termer som felanalys och feltypologi tas upp (avsnitt 2). Exempel på feltypologier ges i avsnitt 2.2.1. Slutligen följer en sammanfattning (avsnitt 3).
Genom att analysera fel som olika grupper av användare gör och samla de fakta man får fram i så kallade feltypologier kan man komma en bra bit på väg i sin felmodellering.
Men felanalys är också något som förekommer vid utvecklandet av bland annat språkgranskningsverktyg. Det går helt enkelt ut på att man letar reda på fel i text och bedömer vilka slags fel det kan vara frågan om, till exempel stavfel, grammatikfel eller stilfel. Det finns olika tillvägagångssätt för att få material till analysen varav undersökning av korpusar förmodligen är det vanligaste. De felanalyser man gör kan man sedan samla i feltypologier.
Exempel på språkgranskningsprojekt där man har använt sig av feltypologier är SCARRIE, GramCheck, Con-Text, TEMAA och EAGLES. Dessa kommer att tas upp som exempel i nedanstående avsnitt.
Grupp: Grammatikproblem (GP)
Kategori: Nominalfras (NP)
Underkategori: Numerus (NB)
Specifikation: singular -> plural (04)
Det tidstypiska tornet var på modet under sent
1800-tal där dåtida sjöman...
------
Det tidstypiska tornet var på modet under sent
1800-tal där dåtida sjömän...
------
Varje nivå ovan tilldelas en kod på två tecken (inom parentes ovan)
och dessa läggs sedan samman till en felkod på åtta tecken
(t.ex. får ovanstående exempel felkoden 'GPNPNB04') som bland
annat används i samband med felsökning. Genom att tilldela en sådan
kod till de fel man hittar i texten kan man genom databasen få fram en
förklaring till felet. Stavfelen är den vanligaste
felgruppen i feldatabasen (drygt 40 %), därefter kommer
grammatik-; interpunktions- samt stil-, betydelse- och syftningsfelen
på runt 16 % vardera. De grafiska problemen, till sist, är minst
vanliga (9 %). Tabeller över vilka feltyper som är mest frekventa inom
respektive grupp och i kategorierna finns i Wedbjer Rambell et
al. (1998).
Exempel på användning av feltypologier för de spanska språkgranskningsverktygen GramCheck och Con-Text finns i Ramírez Bustamante & Sánchez-León (1996) respektive Sánchez-León et al. (1999). Det förstnämnda verktyget behandlar endast grammatik- och stilfel, men feltypologin innehåller även andra typer av fel i likhet med de grupper som finns i SCARRIE. Denna typologi har med vissa tillägg även använts för Con-Text, som dessutom tar hand om fel av en mer lexikal natur.
Feltypologier har också använts för att kunna utvärdera språkgranskningsverktyg, till exempel i de EU-finansierade utvärderingsprojekten TEMAA och EAGLES. I Paggio & Sonne Svendsen (1995) och Manzi (1995) beskrivs de danska respektive italienska feltypologierna som utgjort basen för testmaterial för utvärderingar gjorda i TEMAA-projektet. Typologierna består endast av stavfel och de har använts som inspiration för att ta fram en mängd 'korruptionsregler' (corruption rules). Dessa regler har till syfte att producera listor av felaktiga ord som man sedan skall kunna utvärdera stavningskontrollprogram med. I EAGLES utvärderingsrapport (1995) hävdar man också att det är viktigt att utforma feltaxonomierna så att de speglar olika sorters skribenter, det vill säga det är viktigt att ange och definiera källan till de fel man hittar. Genom att definiera olika feltypologier för olika sorters användare kan man också anpassa felsökning och felrespons på olika sätt. En person som har engelska som andraspråk gör förmodligen andra typer av fel än en som har engelska som modersmål. Dessutom kan det finnas stora skillnader inom de båda grupperna. Ett program för språkgranskning av olika inlärargruppers engelska är Lernout & Hauspies CorrectEnglish3 vilket har baserats på material producerat av inlärare med olika modersmål och som också anpassats till dessa grupper. Enligt uppgift skall programmet även anpassas för de nordiska språken i samarbete med företaget Nordisk Språkteknologi.
Suri & McCoy (1993) och McCoy et al. (1996) beskriver en feltypologi för personer med teckenspråk som förstaspråk och engelska som andraspråk samt ett granskningsverktyg som skall tjäna som interaktivt hjälpmedel för dessa användare. I Chanier et al. (1992) beskrivs hur modellering av olika andraspråksinlärare och deras fel går till och hur ett språkgranskningsverktyg skulle kunna användas inom datorstödd språkinlärning.
Chanier, Thierry, Michael Pengelly, Michael Twidale & John Self
1992. Conceptual Modelling in Error Analysis in Computer-Assisted
Language learning Systems. In M. L. Swartz & M. Yazdani (Eds.),
Intelligent tutoring systems for foreign language
learning. Berlin, Springer-Verlag, s. 125-150.
Nås via:
ftp://ftp.comp.lancs.ac.uk/pub/aai/aai-report-68.ps.Z
EAGLES: Evaluation of Natural Language Processing
Systems 1995. Final Report. EAGLES Document EAG-EWG-PR.2. Version
of September 1995.
Nås via:
ftp://issco-ftp.unige.ch/pub/ewg95.ps
Granger, Sylviane (ed.) 1998. Learner English on Computer. London: Longman.
L&H CorrectEnglish: http://www.lhsl.com/tech/icm/proofing/ce.asp
Manzi, Sandra. 1995. Typology of Italian Spelling
Errors. Appendix B i Test Materials. TEMAA Deliverable D12.
Nås via:
http://www.cst.ku.dk/projects/temaa/D12/d12exp-App-2.html
McCoy, Kathleen F., Christopher A. Pennington & Linda
Z. Suri. 1996. English error correction: A syntactic user model based
on principled "mal-rule" scoring. Proceedings of UM-96, the
Fifth International Conference on User Modeling. Kailua-Kona, Hawaii,
January 1996.
Nås via:
http://www.eecis.udel.edu/research/icicle/pubs/McPeSu96.ps
Paggio, Patrizia & Uffe Sonne Svendsen. 1995. Typology of
Danish Spelling Errors. Appendix A i Test Materials. TEMAA
Deliverable D12.
Nås via:
http://www.cst.ku.dk/projects/temaa/D12/d12exp-App.html
Ramírez Bustamante, Flora & Fernando Sánchez León 1996. Is linguistic
information enough for grammar checking? Proceedings of the
First International Workshop on Controlled Language Applications,
CLAW'96. Katholieke Universiteit Leuven. s. 216-228.
Nås via: http://www.lllf.uam.es/~flora/projects/claw.html
Sánchez-León, Fernando, Flora Ramírez Bustamante & Thierry
Declerck 1999. Integrated set of tools for robust text
processing. Proceedings of Vextal'99. Venezia, S. Servolo,
V.I.U. 22-24 november 1999.
Nås via: http://byron.cgm.unive.it/events/papers/decl.pdf
Suri, Linda Z. & Kathleen F. McCoy 1993. A Methodology for Developing
an Error Taxonomy for a Computer Assisted Language Learning Tool for
Second Language Learners. Technical Report
No. 93-16. Department of Computer and Information Science, University
of Delaware, Newark, DE.
Nås via:
http://www.eecis.udel.edu/research/icicle/pubs/SuriMcCo93a.ps
Wedbjer Rambell, Olga 1998. Error Typology for Automatic Proof-reading Purposes. SCARRIE, Deliverable 2.1, version 1.1.
Wedbjer Rambell, Olga, Bengt Dahlqvist, Erik Tjong Kim Sang & Nils Hein 1998. An Error Database of Swedish. SCARRIE, Deliverable 2.1.3.2, version 1.1.
This document was generated using the LaTeX2HTML translator Version 98.1p1 release (March 2nd, 1998)
Copyright © 1993, 1994, 1995, 1996, 1997, Nikos Drakos, Computer Based Learning Unit, University of Leeds.
The command line arguments were:
latex2html -split 0 -show_section_numbers sgv_rapp.tex.
The translation was initiated by Camilla Bengtsson on 2000-02-09