Maskinöversättning och språkgranskning, 5 p.
Kursen består av nio undervisningstillfällen om tre klocktimmar vardera. Första delen av varje sådant tillfälle har seminariekaraktär, medan återstående tid ägnas arbete med kursprojekt. Det kan vara såväl teoretiskt som praktiskt laborativt arbete. Vid det första tillfället ges en introduktion till kursen och till maskinöversättningsområdet som sådant. Vidare diskuteras förslag till kursprojekt och deras uppläggning diskuteras. Vid det sista tillfället redovisas projektet.
|
|
Dag |
Tid |
Innehåll |
Lärare |
|
1 |
6 feb |
14-17 |
Kursintroduktion samt introduktion till MT (J&M 21, 21.1) + diskussion av kursprojekt och deras uppläggning [ljusbilder pdf] [ljusbilder postscript] |
ASH |
|
2 |
10 feb |
14-17 |
Maskinöversättningens möjligheter och begränsningar (A&SH, EW, MK, H&S 12, RI 2,) + kursprojekt inkl. genomgång av MATS-systemet) [ljusbilder pdf] [ljusbilder postscript] |
ASH |
|
3 |
18 feb |
9-12 |
Direktöversättning och dess utvidgningar (J&M 21.4, H&S 10,) + kursprojekt [ljusbilder pdf] [ljusbilder postscript] |
ASH |
|
4 |
20 feb |
14-17 |
Transferbaserad MT (RI 6, J&M 21.2, H&S 6.1-6.6, 14, 15), lexikalistisk MT (SH1, SH2, JB) interlinguabaserad MT (J&M 21.3, H&S 6.7-6.8, SN ?) + kursprojekt [ljusbilder pdf] [ljusbilder postscript] |
ASH |
|
5 |
25 feb |
9-12 |
Metal, Comprendio och erfarenheter av infogande av danska i Comprendio (MHM) + kursprojekt |
MHM |
|
6 |
27 feb |
14-17 |
Korpusbaserade översättningslexikon (RI 5, JT , SH3) + kursprojekt |
JT, ASH |
|
7 |
6 mar |
14-17 |
Exempelbaserad översättning (HS) och statistiskt baserad översättning (J&M 21.5 + kursprojekt |
ASH |
|
8 |
13 mar |
14-17 |
Evaluering av maskinöversättning (RI 7, H&S 9) + kursprojekt [ljusbilder pdf] |
EF, ASH |
|
9 |
25 mar |
9-12 |
Redovisning av kursprojekt |
ASH, EF, JT |
Anna Sågvall Hein, ASH, kursansvarig, Eva Forsbom, EF, Margrethe Hansen Möller, MHM, Jörg Tiedemann, JT
and its integration in a documentation and translation workflow. Proceedings of the
22nd Conference on Translating and
Computing 22. London. Association
for information
management. 2000.
EW = Wikholm, E. (1989) Kontrastivitet på lexikal nivå. En arbetsrapport från pilotstudien
Flerspråkigt datorstöd för
översättare. Språkdata. Göteborgs universitet. April
1989
HS = Somers.
H. (1999) Example-based machine translation. Machine translation 14(2). pp.
113-157.
H&S
= Hutchins, J. & Somers, H. (1992) An Introduction to Machine
Translation. Academic
Press
Limited. (6, 9, 10, 12, 14, 15)
JT = Tiedemann, Jörg (2002) MatsLex - a
Multilingual Lexical Database for Machine
Translation.In Proceedings of the Third International Conference on Linguistic
Resources and Evaluation (LREC 2002), Las Palmas de Gran Canaria, Spain, 29-31
May, 2002, Vol VI,
pp. 1909-1912 [pdf, 280 kB] [gzipped ps, 69 kB]
J&M =
Jurafsky, D. & Martin, J. H. (2000) Speech and Language Processing. Prentice-Hall.
MHM = Hansen Möller, M., xx (2003) ”kompendium om Metal och Comprendio”
RI = Ingo, R. (1991) Från källspråk till målspråk. Introduktion till översättningsvetenskap.
Studentlitteratur (2, 5, 6, 7 )
SH1 = Sågvall
Hein, A. (1993) On the translation of nominal expressions in a multilingual
unification-based setting. In: Hajicova, E. (ed.) Functional approaches to language
description. Proceedings of a conference in
Prague, November 24-27 1992.
SH2 =
Sågvall Hein, A. (1997) Language control and machine translation. In:
Proceedings of
the 7th International Conference on
Theoretical and Methodological Issues in Machine
Translation. July 23-25, 1997. St. John’s
College, Santa Fe, New Mexico.
SH3 = Sågvall Hein, Anna, Eva Forsbom, Jörg Tiedemann,
Per Weijnitz, Ingrid Almqvist,
Leif-Jöran Olsson and
Sten Thaning, 2002, Scaling Up an MT Prototype for Industrial
Use – Databases and
Data Flow.In Proceedings of the Third International Conference
on Linguistic Resources and Evaluation (LREC 2002), Las Palmas de Gran Canaria,
Spain, 29-31 May,
2002, Vol V, pp. 1759-1766 [pdf, 116 kB] [gzipped ps, 49 kB]
SN = Nirenburg,
S. (ed.) (1987) Machine
translation, Theoretical and methodological issues
(2, 4)
Examinationen består i genomförande av ett kursprojekt samt uppgifter knutna till seminariedelen av de olika undervisningstillfällena. Kursprojektet utförs i grupp av valfri storlek. Seminarieuppgifterna utförs individuellt. De består i att läsa angiven litteratur, göra en skriftlig sammanfattning och redovisa den muntligt. Alla kursdeltagare deltar i diskussionen av presentationen.
Det har visat sig, att man kan utveckla maskinöversättningssystem av god kvalitet för begränsade domäner och texttyper. Dessa system är vanligen regelbaserade, dvs. översättningen går via en sammanhängande lingvistisk struktur, mening för mening. MATS-systemet är ett sådant system. Det översätter från svenska till engelska inom bilunderhållsdomänen.
En intressant fråga gäller hur man kan byta domän för ett regelbaserat system. En annan handlar om hur man kan byta översättningsriktning. Dessa två frågeställningar utgör utgångspunkt för två olika förslag till projektuppgifter. De utgår alla från MATS-systemet.
Den första strategi som tillämpades för maskinöversättning var direktöversättning, dvs. översättning som i huvudsak är lexikonbaserad och inte går via någon sammanhängande satsstruktur. Vanligen utförs översättningen stegvis, där varje steg tar han om något översättningsproblem. Direktöversättningsstrategin har befunnits alltför begränsad för kvalitetsöversättning. Ändå har man på senare år genom tillgång till korpusbaserade översättningsdata samt användning av statistiska metoder kommit längre med denna metod än vad man tidigare hade förväntat sig. Ett fjärde förslag till projektuppgift är sålunda att utveckla ett direktöversättningssystem från eller till svenska utifrån eget huvud.
Tre förslag till projektuppgifter
Utgångspunkten är, att översättningen skall gå från svenska till engelska på samma sätt som i MATS-systemet.
Det första är att ta ställning till är vilken domän man skall inrikta sig på. Det bör vara en avgränsad domän där maskinöversättning kan vara ett realistiskt alternativ.
Det är en fördel om redan översatt text finns tillgänglig inom den domän man vill arbeta med. Man behöver översatta texter som ”facit” för översättningen men vanligen också för att bygga lexikon. Det är lämpligt att etablera en översättningskorpus och dela upp den i en träningsdel och en evalueringsdel.
I genomförandet av projektet får man återanvända hela språkmodulen i MATS-systemet exklusive det domänspecifika billexikonet:
En stor del av arbetet kommer att handla om att tillföra de domänspecifika orden till databasen. MATS-systemet flaggar rött för de ord som saknas i den svenska databasen och orden sparas upp på sådant vis, att man kan komma åt dem samlat. Det är också rimligt att förutse, att de flesta filerna ovan kommer att behöva viss komplettering.
Med lämpligt val av domän bör uppgiften kunna resultera i ett nytt översättningssystem inom ramen för MATS-systemet.
Tillgänglig mjukvara:
MATS-systemet
Program för uppdatering av databasen (Tiedemann)
Evalueringsprogram för MATS-systemet (Forsbom och Weijnitz)
Länkningsprogram (Tiedemann)
2. Byte av översättningsriktning för MATS-systemet (sv-->en à en-->sv)
För denna uppgift behöver man inte etablera någon ny översättningskorpus. Man kan utgå från MATS-korpusen (xxx). Den engelska delen av korpusen får utgöra källspråk och den svenska delen ”facit”. Vidare får man tillgång till hela MATS-lexikonet, dvs. arbetet med lexikonet bör vara försumbart. Däremot tillhandahåller MATS-systemet ingen parser för engelska och inte någon generringsgrammatik för svenska. De dominerande uppgifterna i detta projekt kommer sålunda att bestå i att byta ut den svenska parsern mot en engelsk parser och att definiera genereringsregler för svenska i MULTRA:s genereringsformalism. Vad gäller den engelska parsern, så kan man tänka sig två alternativ: skriva engelsk parser i UCP eller koppla in en extern parser. För- och nackdelar med dessa båda alternativ bör diskuteras i arbetet med projektspecifikationen. Lexikala transferregler för översättning av lexikala enheter i kontext (endic.tra) kommer också att behöva utvecklas för god översättningskvalitet. I vad mån de strukturella transferreglerna (engra.tra) är mer svårbedömt.
Tillgänglig mjukvara:
MATS-systemet
Evalueringsprogram för MATS-systemet (Forsbom och Weijnitz)
3. Utveckling av ett nytt direktöversättningssystem från
eller till svenska
Här är det fritt fram!
/Anna Sågvall Hein
2003-01-09
Uppdaterad 2003-03-24 bd