Projektarbete:

 

Att utveckla ett system för morfologisk analys och syntes av svenska substantiv


Morfologisk analys

 

Bestämning av ord med avseende på lemma, ordklass och morfosyntaktiska egenskaper

 

Ex.

flickornas

-->

flicka.nn substantiv, utrum, pluralis, bestämd form, genitiv

 


Morfosyntaktiska egenskaper hos svenska substantiv:

·       genus

·       numerus

·       species

·       kasus


Morfologisk syntes

 

Generering av ord utgående från uppgift om lemma, ordklass och morfosyntaktiska egenskaper

 

Ex.

flicka.nn substantiv, utrum, pluralis, bestämd form, genitiv

-->

flickornas


Olika ordbegrepp

 

1 textord, graford, ordförekomst, löpord, (word) token

 

Textord definieras som strängar av bokstavstecken omgivna av ordavgränsare i form av skiljetecken, mellanslag och radframmatningstecken. Till bokstavstecknen kan man välja att räkna bindestreck och kolon. Man kan också välja att räkna skiljetecken som egna textord. Med  tokenisering avses den process i vilken textord, tokens, skiljs ut ur en text.

 

2 ordtyp, typord, böjningsform, (word) type, unikt textord

 


3 lemma, lexikonord

 

                 Lemma är ett abstrakt begrepp, som betecknar alla böjningsformer av

                 ett ord, av en betydelseenhet. Som beteckning för lemmat används

                 vanligen inom traditionell språkvetenskap ordets grundform. Inom

                 språkteknologin brukar man lägga till en ordklassbeteckning för att

                 åtskilja likalydande grundformer. Då två grundformer sammanfaller

                 i en ordklass numreras grundformerna i lemmabeteckningen.

 

 4 lexem, distinkt ordbetydelse


Grannens pojke och en annan pojke ville låna min egen pojkes gamla cykel för att åka till badstranden.

 

18 textord

17 ordtyper

16 lemman

16 lexem


Textord:

                 grannens

                 pojke

                 och

                 en

                 annan

                 pojke

                 ville

                 låna

                 min

                 egen

                 pojkes

                 gamla

                 cykel

                 för

                 att

                 åka

                 till

                 badstranden


Ordtyper:

                 grannens

                 pojke

                 och

                 en

                 annan

                 ville

                 låna

                 min

                 egen

                 pojkes

                 gamla

                 cykel

                 för

                 att

                 åka

                 till

                 badstranden


Lemman:

                 granne.nn

                 pojke.nn

                 och.cn

                 en.al

                 annan.pn

                 vilja.vb

                 låna.vb

                 min.pn

                 egen.av

                 gammal.av

                 cykel1.nn

                 för.pp

                 att.ie

                 åka.vb

                 till.pp

                 badstrand.nn


Lexem:

                 granne.nn.0

                 pojke.nn.1

                 och.cn.1

                 en.al.0

                 annan.pn.0

                 vilja.vb.0

                 låna.vb.2

                 min.pn.0

                 egen.av.1

                 gammal.av.1

                 cykel1.nn.0

                 för.pp.9

                 att.ie.0

                 åka.vb.1

                 till.pp.1

                 badstrand.nn.0


En basal regel för analys och syntes av substantiv:

 

nomen  -->                                 stam         ändelse

 


Processer vid analys:

 

·       segmentering

 

                 flickornas --> flick   ornas

 

·       lexikonuppslagning och tilldelning av ordbeskrivning

 

                 flick          flicka.nn

                                   noun

                                   utrum

 

                 ornas        plur

                                   def

                                   gen


Processer vid morfologisk syntes

 

·       val av stam och ändelse

·       konkatenering (sammanfogning)


Man en klarare struktur på lexikonet, om man formaliserar uppgift om ordklass och morfosyntaktiska egenskaper. Nedan finner du exempel på en sådan formalisering, som hämtats ur ett kodschema som definierats inom SCARRIE-projektet.

 

flickornas flicka.nn NNUPDG


Nedan finner du de koder som du skall använda dig av i projektarbetet. Koderna inleds med en tvåställig ordklassbeteckning. Den följs av fyra versaler, där varje versal svarar mot en böjningskategori och ett värde. Man talar vanligen om attribut och värden. Attributen är positionellt definierade. För substantivens del finns attributen gender, numb, species och case, med respektive värden: utr/neutr, sing/plur, def/indef och basic/gen.
Koder för substantiv och morfosyntaktiska kategorier

 

# NN = Noun

:NOUN                      gender      numb        species      case

###############################################

NNUSDB utr             sing           def            basic        

NNUSDG                  utr             sing           def            gen           

NNUSIB                    utr             sing           indef         basic

NNUSIG                   utr             sing           indef         gen

NNUPDB                  utr             plur           def            basic        

NNUPDG                 utr             plur           def            gen           

NNUPIB                   utr             plur           indef         basic        

NNUPIG                   utr             plur           indef         gen           

NNNSDB neutr         sing           def            basic        

NNNSDG                  neutr         sing           def            gen           

NNNSIB                    neutr         sing           indef         basic

NNNSIG                   neutr         sing           indef         gen

NNNPDB                  neutr         plur           def            basic

NNNPDG                 neutr         plur           def            gen           

NNNPIB                   neutr         plur           indef         basic        

NNNPIG                   neutr         plur           indef         gen

 


Det substantiviska böjningsparadigmet

 

T.ex. fest.nn    NNU

 

fest              SIB                                 fester          PIB

fests            SIG                                 festers         PIG

festen          SDB                               festerna       PDB

festens        SDG                               festernas     PDG


Språkbeskrivning för projektarbetet

·       stamlexikon

·       ändelselexikon

·        regler som bestämmer vilka stammar som får kombineras med vilka ändelser, s.k. morfotaktiska regler


Den morfologiska modellen på svenska

(med numrering för att underlätta arbetsuppdelningen i projektet …)

 

Lemma                Tekn. stam         Böjn.-typ             Nyckelformer

 

 


or-plural:

 

1. ros.nn              ros                       .ros                      ros, +en, +or

 

2. flicka.nn          flick                      .flicka                   flick-a, -a+n, +or

 

 


ar-plural:

 

3. stol.nn             stol                      .stol                     stol, +en, +ar

 

4. öken.n             ök                         .öken                   ök-en, -n+en, -n+ar

 

5. afton.nn          aft                        .afton                   aft-on, -on+en, -n+ar

 

6. djävul.nn        djäv                     .djävul                 djäv-ul, -ul+en, -l+ar

 

7. kam.nn            kam                      .kam                     kam, -m+en, -m+a

 

8. mun.nn            mun                     .mun                    mun, -n+en, -n+a

 

9. fru.nn              fru                        .fru                       fru, +n, +ar

 

10. gosse.nn       goss                    .gosse                 goss-e, -e+n, +ar

 

11. nyckel.nn      nyck                    .nyckel                nyck-el, -el+n, -l+ar

 

12. seger.nn        seg                       .seger                  seg-er, -er+n, -r+ar

 

13. lämmel.nn     läm                       .lämmel                läm-mel, -mel+n, -l+ar

 

14. hummer.nn   hum                     .hummer              hum-merm –mer+n, -r+ar

 

15. finger.nn       fing                      .finger                  fing-er, -r+et, -r+ar

 

16. botten.nn      bott                      .botten                bott-en, -n+en, -n+ar

 

17. sommar.nn    som                      .sommar              som-mar, +n, +en, -r+ar

 

18. moder.nn      moder                  .moder                 moder, +n

                             mödr                    .mödrar                mödr+ar


er-plural:

 

19. film.nn           film                       .film                      film, +en, +er

 

20. vän.nn           vän                      .vän                     vän, -n+en, -n+er

 

21. nöt.nn           nöt                       .nöt                      nöt, +en, -t+er

 

22. vin.nn            vin                       .vin                      vin, +et, +er

 

23. decennium.nn  decenni           .decennium         decenni-um, -um+et/+et,+er

 

24. geranium.nn gerani                  .geranium            gerani-um, -um+en/+en, +er

 

25. nivå.nn          nivå                     .nivå                    nivå, +n, +er

 

26. akademi.nn   akademi               .akademi              akademi, +en/+n, +er

 

27. historia.nn    histori                  .historia               histori-a, -+en, +er

 

28. parti.nn         parti                     .parti                    parti, +et/+t, +er

 

29. möbel.nn       möb                     .möbel                 möb-el, -el+n, -l+er

 

30. musa.nn        mus                      .musa                   mus-a, -a+n, +er

 

31. drama.nn       dram                    .drama                 dram-a, -a+t, +er

 

32. ganglion.nn  gangli                  .ganglion            gangli-on, +et, +er

 

33. strand.nn      strand                  .strand                 strand, +en

                             stränd                  .stränder             stränd+er

 

34. stad.nn          stad                     .strand                 stad, +en            

                             städ                     .stränder             städ+er

 

35. land.nn          land                     .land                    land, +et

                             länd                     .länder                 länd+er

 

36. kläder.nn       kläd                      .stränder             kläd+er

 


r-plural:

 


37. sko.nn           sko                       .sko                      sko, +n, +r

 

38. fängelse.nn  fängelse              .fängelse             fängelse, +t, +r

 

39. bonde.nn      bonde                  .bonde                 bonde, +n

                             bönd                    .bönder               bönd+er

_______________________________________________________________

 

n-plural:

 

40. samhälle.nn  samhäll                .samhälle             samhäll-e, +t, -e+n

 

41. bi.nn              bi                          .bi                         bi, +et, +n,         

 

42. knä.nn           knä                       .knä                      knä, +t, +n

 

 


en-plural:

 

43. styck.nn        styck                   .styck                  styck, +et, +en

 

 



- - plural:

 

44. bord.nn         bord                     .bord                    bord, +et

 

45. hus.nn           hus                      .hus                     hus, +et

 

46. vakuum.nn   vakuum              

.vakuum              vakuum, +et, +en

 

47. gisslan.nn     gisslan                .gisslan               gisslan

 

48. order.nn        order                    .order                   order, +n

 

49. fader.nn        fader                    .fader                   fader, +n

                             fäd                       .fäder                   fäd+er

 

50. ordförande.nn .ordförande     .ordförande        ordförande, +n, +na

 

51. LP.nn             LP                        .LP                       LP, +-n, +-na

 

52. pansar.nn     pansar                 .pansar                pansar, +et,  +na

 

53. garage.nn     garage                 .garage                garage, e+t, +n

 

54. mil.nn            mil                        .mil                       mil, +en

 

55. kypare.nn     kypar                   .kypare                kypar-e, -e+n/+n, +na

 

56. tecken.nn      teck                      .tecken                teck-en, -n+et, -n+en

 

57. program.nn   program              .program             program, -m+et, -m+en

 

58. tum.nn           tum                      .tum                     tum, -m+en, -m+en

 

59. segel.nn        seg                       .segel                   seg-el, -l+et, seg-l+en

 

60. fönster.nn     fönst                    .fönster               fönst-er, -r+et, -r+en

                            

61. nummer.nn   num                     .nummer              num-mer, -r+et, -mer

                                                                                       -r+en

 

62. ögon.nn        ög                        .ögon                   ög-a, a+t, -on

 

63. gås.nn           gås                       .gås                      gås, +en

                             gäss                     .gäss                    gäss, +en

 

64. man.nn          man                      .man                     man, -n+en

                             män                      .män                     män, -n+en

 

65. jeans.nn        jeans                    .jeans                   jeans, +en

 


a‑plural:

 

66. narkotikum.nn  narkotik          .narkotikum        narkotik-um, +et, +a

 

67. examen.nn    exam                    .examen               exam-en, -in+a

 

68. agens.nn       agen                    .agens                 agen-s, -s+en, -ti +er

 

69. prestanda.nn prestand            .prestanda          prestand+a

 

 


s-plural:

 

70. star.nn           star                      .star                     star, +en, +s

 

71. broiler.nn      broiler                  .broiler                 broiler, +n, +s

 

 


e‑plural:

 

72. fullmäktig.nn  fullmäktig          .fullmäktig           fullmäktig, +en, +e

 

 

 

OBS!

 

I projektet behöver ni bara segmentera i teknisk stam och ändelse (resten av ordet). Den morfologiska modellen skall primärt användas för att ge er en uppdelning av substantiven i böjningstyper och böjningstypernas olika former. Den tekniska stammen kan också hämtas direkt ur den morfologiska modellen.


Specifikation av språkbeskrivningen

 

·       stamlexikon: 1 representant för varje böjningstyp enl. den morfologiska modellen

 

·       ändelselexikon: komplett i relation till den morfologiska modellen

 

·       morfotaktiska regler som godkänner de kombinationer som omfattas av den morfologiska modellen och avvisar övriga

 

·       testdata: komplett uppsättning positiva testdata samt relevanta negativa testdata


Redovisning

 

·       Demonstrationskörning av samtliga testdata enligt specifikationen

 

·       En skriftlig rapport, som beskriver uppgiften och hur den  lösts. Den skall innehålla den fullständiga språkbeskrivningen samt programkoden för de delar som programmerats. Rapportens skall redovisa hur arbetet delats upp och vem som gjort vad.

 

Lycka till!!!