Projektarbete:
Att utveckla ett system för morfologisk
analys och syntes av svenska substantiv
Morfologisk analys
Bestämning
av ord med avseende på lemma, ordklass och morfosyntaktiska egenskaper
Ex.
flickornas
-->
flicka.nn substantiv, utrum, pluralis, bestämd form,
genitiv
Morfosyntaktiska egenskaper hos svenska
substantiv:
· genus
· numerus
· species
· kasus
Morfologisk syntes
Generering
av ord utgående från uppgift om lemma, ordklass och morfosyntaktiska egenskaper
Ex.
flicka.nn substantiv, utrum, pluralis, bestämd form,
genitiv
-->
flickornas
Olika ordbegrepp
1
textord, graford, ordförekomst, löpord, (word) token
Textord
definieras som strängar av bokstavstecken omgivna av
ordavgränsare i form av skiljetecken, mellanslag och radframmatningstecken.
Till bokstavstecknen kan man välja att räkna bindestreck och kolon. Man kan
också välja att räkna skiljetecken som egna textord. Med tokenisering
avses den process i vilken textord, tokens, skiljs ut ur en text.
2
ordtyp, typord, böjningsform, (word) type, unikt textord
3
lemma, lexikonord
Lemma är ett abstrakt begrepp, som betecknar alla
böjningsformer av
ett ord, av en betydelseenhet.
Som beteckning för lemmat används
vanligen inom traditionell
språkvetenskap ordets grundform. Inom
språkteknologin brukar man
lägga till en ordklassbeteckning för att
åtskilja likalydande
grundformer. Då två grundformer sammanfaller
i en ordklass numreras
grundformerna i lemmabeteckningen.
4 lexem, distinkt ordbetydelse
Grannens
pojke och en annan pojke ville låna min egen pojkes gamla cykel för att åka
till badstranden.
18
textord
17
ordtyper
16
lemman
16
lexem
Textord:
grannens
pojke
och
en
annan
pojke
ville
låna
min
egen
pojkes
gamla
cykel
för
att
åka
till
badstranden
Ordtyper:
grannens
pojke
och
en
annan
ville
låna
min
egen
pojkes
gamla
cykel
för
att
åka
till
badstranden
Lemman:
granne.nn
pojke.nn
och.cn
en.al
annan.pn
vilja.vb
låna.vb
min.pn
egen.av
gammal.av
cykel1.nn
för.pp
att.ie
åka.vb
till.pp
badstrand.nn
Lexem:
granne.nn.0
pojke.nn.1
och.cn.1
en.al.0
annan.pn.0
vilja.vb.0
låna.vb.2
min.pn.0
egen.av.1
gammal.av.1
cykel1.nn.0
för.pp.9
att.ie.0
åka.vb.1
till.pp.1
badstrand.nn.0
En basal regel för analys och syntes av
substantiv:
nomen
--> stam ändelse
Processer vid analys:
· segmentering
flickornas
--> flick ornas
· lexikonuppslagning och tilldelning av
ordbeskrivning
flick flicka.nn
noun
utrum
ornas plur
def
gen
Processer vid morfologisk syntes
· val av stam och ändelse
· konkatenering (sammanfogning)
Man
en klarare struktur på lexikonet, om man formaliserar uppgift om ordklass och
morfosyntaktiska egenskaper. Nedan finner du exempel på en sådan formalisering,
som hämtats ur ett kodschema som definierats inom SCARRIE-projektet.
flickornas flicka.nn NNUPDG
Nedan
finner du de koder som du skall använda dig av i projektarbetet. Koderna inleds
med en tvåställig ordklassbeteckning. Den följs av fyra versaler, där varje
versal svarar mot en böjningskategori och ett värde. Man talar vanligen om
attribut och värden. Attributen är positionellt definierade. För substantivens
del finns attributen gender, numb,
species och case, med respektive
värden: utr/neutr, sing/plur, def/indef och
basic/gen.
Koder för substantiv och morfosyntaktiska
kategorier
#
NN = Noun
:NOUN gender numb species case
###############################################
NNUSDB utr sing def basic
NNUSDG utr sing def gen
NNUSIB utr sing indef basic
NNUSIG utr sing indef gen
NNUPDB utr plur def basic
NNUPDG utr plur def gen
NNUPIB utr plur indef basic
NNUPIG utr plur indef gen
NNNSDB neutr sing def basic
NNNSDG neutr sing def gen
NNNSIB neutr sing indef basic
NNNSIG neutr sing indef gen
NNNPDB neutr plur def basic
NNNPDG neutr plur def gen
NNNPIB neutr plur indef basic
NNNPIG neutr plur indef gen
Det
substantiviska böjningsparadigmet
T.ex. fest.nn
NNU
fest SIB fester PIB
fests SIG festers PIG
festen SDB festerna PDB
festens SDG festernas PDG
Språkbeskrivning för projektarbetet
· stamlexikon
· ändelselexikon
·
regler som bestämmer vilka stammar som får
kombineras med vilka ändelser, s.k. morfotaktiska regler
Den
morfologiska modellen på svenska
(med numrering för att
underlätta arbetsuppdelningen i projektet …)
or-plural:
1. ros.nn ros .ros ros,
+en, +or
2.
flicka.nn flick .flicka flick-a, -a+n, +or
ar-plural:
3. stol.nn stol .stol stol, +en, +ar
4. öken.n ök .öken ök-en, -n+en, -n+ar
5. afton.nn aft .afton aft-on, -on+en, -n+ar
6. djävul.nn djäv .djävul djäv-ul, -ul+en, -l+ar
7. kam.nn kam .kam kam, -m+en, -m+a
8. mun.nn mun .mun mun, -n+en, -n+a
9. fru.nn fru .fru fru, +n, +ar
10. gosse.nn goss .gosse goss-e, -e+n, +ar
11. nyckel.nn nyck .nyckel nyck-el, -el+n, -l+ar
12. seger.nn seg .seger seg-er, -er+n, -r+ar
13. lämmel.nn läm .lämmel läm-mel, -mel+n, -l+ar
14. hummer.nn hum .hummer hum-merm –mer+n, -r+ar
15. finger.nn fing .finger fing-er, -r+et, -r+ar
16. botten.nn bott .botten bott-en, -n+en, -n+ar
17. sommar.nn som .sommar som-mar, +n, +en, -r+ar
18. moder.nn moder .moder moder, +n
mödr .mödrar mödr+ar
er-plural:
19. film.nn film .film film, +en, +er
20. vän.nn vän .vän vän, -n+en, -n+er
21. nöt.nn nöt .nöt nöt, +en, -t+er
22. vin.nn vin .vin vin, +et, +er
23. decennium.nn
decenni .decennium decenni-um, -um+et/+et,+er
24. geranium.nn
gerani .geranium gerani-um, -um+en/+en, +er
25. nivå.nn nivå .nivå nivå, +n, +er
26. akademi.nn akademi .akademi akademi, +en/+n, +er
27. historia.nn histori .historia histori-a, -+en, +er
28. parti.nn parti .parti parti, +et/+t, +er
29. möbel.nn möb .möbel möb-el, -el+n, -l+er
30. musa.nn mus .musa mus-a, -a+n, +er
31. drama.nn dram .drama dram-a, -a+t, +er
32. ganglion.nn gangli .ganglion gangli-on, +et, +er
33. strand.nn strand .strand strand, +en
stränd .stränder stränd+er
34. stad.nn stad .strand stad, +en
städ .stränder städ+er
35. land.nn land .land land, +et
länd .länder länd+er
36. kläder.nn kläd .stränder kläd+er
![]()
r-plural:
37. sko.nn sko .sko sko, +n, +r
38. fängelse.nn fängelse .fängelse fängelse, +t, +r
39. bonde.nn bonde .bonde bonde, +n
bönd .bönder bönd+er
_______________________________________________________________
n-plural:
40. samhälle.nn samhäll .samhälle samhäll-e, +t, -e+n
41. bi.nn bi .bi bi, +et, +n,
42. knä.nn knä .knä knä, +t, +n
en-plural:
43. styck.nn styck .styck styck, +et, +en
![]()
- - plural:
44. bord.nn bord .bord bord, +et
45. hus.nn hus .hus hus, +et
46. vakuum.nn vakuum
.vakuum vakuum, +et, +en
47. gisslan.nn gisslan .gisslan gisslan
48.
order.nn order .order order, +n
49. fader.nn fader .fader fader, +n
fäd .fäder fäd+er
50. ordförande.nn .ordförande .ordförande ordförande, +n, +na
51. LP.nn LP .LP LP, +-n, +-na
52. pansar.nn pansar .pansar pansar, +et, +na
53. garage.nn garage .garage garage, e+t, +n
54. mil.nn mil .mil mil, +en
55. kypare.nn kypar .kypare kypar-e, -e+n/+n, +na
56. tecken.nn teck .tecken teck-en, -n+et, -n+en
57. program.nn program .program program, -m+et, -m+en
58. tum.nn tum .tum tum, -m+en, -m+en
59. segel.nn seg .segel seg-el, -l+et, seg-l+en
60. fönster.nn fönst .fönster fönst-er, -r+et, -r+en
61. nummer.nn num .nummer num-mer, -r+et, -mer
-r+en
62. ögon.nn ög .ögon ög-a, a+t, -on
63. gås.nn gås .gås gås, +en
gäss .gäss gäss, +en
64. man.nn man .man man, -n+en
män .män män, -n+en
65. jeans.nn jeans .jeans jeans, +en
a‑plural:
66.
narkotikum.nn narkotik .narkotikum narkotik-um, +et, +a
67. examen.nn exam .examen exam-en, -in+a
68. agens.nn agen .agens agen-s, -s+en, -ti +er
69. prestanda.nn prestand .prestanda prestand+a
s-plural:
70. star.nn star .star star, +en, +s
71.
broiler.nn broiler .broiler broiler, +n, +s
e‑plural:
72. fullmäktig.nn
fullmäktig .fullmäktig fullmäktig, +en, +e
OBS!
I
projektet behöver ni bara segmentera i teknisk stam och ändelse (resten av
ordet). Den morfologiska modellen skall primärt användas för att ge er en
uppdelning av substantiven i böjningstyper och böjningstypernas olika former.
Den tekniska stammen kan också hämtas direkt ur den morfologiska modellen.
Specifikation av språkbeskrivningen
· stamlexikon: 1 representant för varje böjningstyp enl. den morfologiska
modellen
· ändelselexikon: komplett i relation till den morfologiska modellen
· morfotaktiska regler som godkänner de kombinationer som omfattas av den
morfologiska modellen och avvisar övriga
· testdata: komplett uppsättning positiva testdata samt relevanta
negativa testdata
Redovisning
· Demonstrationskörning av samtliga testdata enligt specifikationen
· En skriftlig rapport, som beskriver uppgiften och hur den lösts. Den skall innehålla den fullständiga
språkbeskrivningen samt programkoden för de delar som programmerats. Rapportens
skall redovisa hur arbetet delats upp och vem som gjort vad.
Lycka till!!!