From 45b2d88eed22061fb6073cb353bb4f7aba236abb Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Judithe=20Denb=C3=A6k?= Date: Fri, 25 Oct 2024 14:15:05 +0000 Subject: [PATCH] gammel og uoverskuelig dokumentation arkiveret --- .../morphology/affixes/OLD_documentation.txt | 197 ++++++++++++++++++ 1 file changed, 197 insertions(+) create mode 100644 src/fst/morphology/affixes/OLD_documentation.txt diff --git a/src/fst/morphology/affixes/OLD_documentation.txt b/src/fst/morphology/affixes/OLD_documentation.txt new file mode 100644 index 000000000..a2557d0e4 --- /dev/null +++ b/src/fst/morphology/affixes/OLD_documentation.txt @@ -0,0 +1,197 @@ + +! ====================================================================================== +!! # Fil for at generere de centrale morfologiske processer i vor grønlandske analysator +! ====================================================================================== +!! ## September 2024 +!! ## branch: (testing), regressionstest: regression (branch: testing - kaltesting) + +!! ## Dokumentasjon for leksikonnavne: + +!! * Z = nomen +!! * 1 = svag bøjning, p-bøjning +!! * 2 = sterk bøjning, up-bøjning +!! * P = plurale tantum +!! * S = singularis +!! * - = sterk bøjing som trunkerer (2-) +!! * a, q, ... = gemineringer ved konsonantiske flexiver +!! * Z = nomen +!! * morf = går til derivationsleksika +!! * = går til flexivleksika +!! * tpt = +!! * tup = +!! * K = Direkte til finale klitika + +! Nye lexica +!LEXICON DOTR_C !gennemgangslexicon for dobbelttransitiver som TIP !!! PL 20180319 +!LEXICON DOTR_C_P !gennemgangslexicon for dobbelttransitiver som TIP efter pluralis tantum!!! PL 20180320 +!LEXICON XIiXmorf_UdenTIP !!= * @CODE@ som XIiXmorf, men uden TIP for at blokere rekursive TIP + +!################ +!! ## Specielle lexica +!################ +!Nyt derivativ-LEX 20190403: GIIT specielt til GIIT+Der/nn for at tillade possesseum. +!De blev tidligere sendt til ZkkutZ, der ikke kan være possessum + +!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! +!! ## KAPITLER TIL fst-DOKUMENTA + +!!Akronymer, der er nominer med obligatorisk bindestreg som ATV, BMW, IT etc. + +!!Disse ord må aldrig forekomme uden bindestreg fordi de så kan overgenerere vilde former som *ITlu -> *illu. Dette skaber et problem i (N Abs Sg), der uden særlige forholdsregler vil få former som *BMW-, *IT- etc. (Og husk, at nogle ord (fx IT) skal have @U.Num.Sg@-flag.) + +!!For at dette kan lade sig gøre, må alle ord med obligatorisk bindestreg gennem særlige lexica, for at undgå at også Abs+Sg får bindestreg. + +!!GØR SÅLEDES: + +!!Første trin i nouns.lexc fx: +!!IT@U.Num.Sg@ N_Loan_ACR_V ; !Kun Sg er mulig +!!og +!!ATV N_Loan_ACR_V ; !Både Sg og Pl er mulige + +!!Første trin i derivations-inflections.lexc: + +!!LEXICON N_Loan_ACR_V +!!+N+Abs+Sg: # ; !Vi får fx IT+N+Abs+Sg:IT +!! :- N_Loan_ACR_morf ; !obligatorisk bindestreg +!!+Err/Sub:-i N_Loan_ACR_morf ; ! ofte set fejl med i trods vokaludlyd + +!!LEXICON N_Loan_ACR_morf !PL20240512 foreløbig har jeg bare kopieret derivativerne ind fra Z1VZmorf og udkommenteret alt for ikke at overgenerere. Formerne kan bare aktiveres ved behov +!! N_Loan_ACR_infl ; +!!etc. + +!!LEXICON N_Loan_ACR_infl !PL20240512 foreløbig bare kopieret ind fra tpV og alting undtagen QAR, LIRI, (Abs Sg) og (Abs Pl) er udkommenteret. Former kan bare aktiveres, når vi får brug for det. +!!Bemærk at (Abs Sg) er medtaget igen selv om formen dannes allerede i N_Loan_ACR_infl, men vi skal jo også kunne lave ord som IT-lu etc. Men netop derfor er det nødvendigt IKKE at bruge Krestr, men et særligt tilhængspartikellexicon uden mulighed for # for at tillade fx IT-lu, men blokere *IT- + +!!LEXICON Krestr_ACR !!Uden mulighed for # uden tilhængspartikel +! # ; !Vigtigt, at denne mulighed er blokeret +!!+LU:%>lu # ; +!!etc. + +!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! + +!! TARIAQAR på transitiver kan både danne transitive, refleksive og passive verber. Derfor bliver +!! alle forekomster af TARIAQAR ved transitiver startende fra juni 2020 både sendt videre normalt til +!! (i) TV-mod_r og tilføjet taggen Gram/Pass og sendt som ny stamme til (ii) IV_r +!! På den måde vil turen via (i) producere +!! misissortariaqarpaa misissor+Gram/TV+TARIAQAR+Der/vv+Gram/TV+V+Ind+3Sg+3Sg, samt +!! misissortariaqarpoq misissor+Gram/TV+TARIAQAR+Der/vv+Gram/Refl+V+Ind+3Sg +!! og turen via IV_r vil generere +!! misissortariaqarpoq misissor+Gram/TV+TARIAQAR+Der/vv+Gram/Pass+Gram/IV+Gram/IV+V+Ind+3Sg + +!! BLOKERING AF REKURSIV TIP VED TRANSITIVER +!! PL20200709 +!! Forkerte læsninger, når IV med TIP viderederiveres i HTR-lexicon, hvor yderligere TIP kan tilføjes som ingerlatitseqqinneq +!! ingerla+Gram/IV+TIP+Der/vv+Gram/TV+TIP+Der/vv+Gram/Db+Gram/Refl+QQIP+Der/vv+Gram/IV+NIQ+Der/vn +!! blokeres vha. flaget @P.TIP.ON@ i IV-lexicon og blokeres af flaget @D.TIP@ i transitiv derivation. +!! Ex +!! ingerla via IV_voq_stem og får i LEXICON tilføjet linien +!! +TIP@P.TIP.ON@+Der/vv:%>tip@P.TIP.ON@ HTR_C_TAQ_tsi ; +!! I HTR_C_TAQ_tsi tilføjes der yderligere TIP. +!! For at forebygge dette tagges derivativkæder med TIP som første element med @D.TIP@ +!! +!! Bemærk at D-flaget principielt kun skal anvendes når TIP er første derivativ i kæden. Det kan nemlig ikke udelukkes, at der på et senere +!! tidspunkt kan tilføjes yderligere TIP-er +!! + +!! Følgende afsnit virker ikke!!!!!!! +!! SÆRLIGT OM Gram/Refl VED TRANSITIVERNE (PL20211121 forsøg) +!! Foranlediget af ord som 'attorteqqassutigaara', hvor Refl skaber problemer for både oversættelserne +!! og videre affingering introduceres strengen +TIP+Der/vv+Gram/Db+Gram/Refl som går til XItX ; + +! !AFSNIT MED EKSEMPLER PÅ DBELTTRANSITIV +!! SURE er sjældent Db, men hos Ole Brandt finder vi eksempler som ".. sunaaffa Pikiulinnguarmiut pasillerai (implicit Pikiulinnguarmiunut +!! nukani] pilerngullugu nakkartissimasoralugu. + +!! PLEONASTISKE HTR VED NIAR OG QQIP +!! medtages i IV-lexica med taggen +HTR+Err/Sub og en bemærkning efter ! +!! Fx i LEXICON IVschwa2 +!! +QQIP+Der/vv+HTR+Der/vv+Err/Sub:%>eqqii IV-mod_V ; !Fejl af typen ingerlatitseqqiineq + +!NORMALE MISFORSTÅELSE VED GI OG LABIALMETATESE - EN BRUGSANVISNING +!Retningslinier for korrekt behandling af verber med labialmetatese i visse former (-gujoq og gujaa): +! +!Husk at GI er en principielt normal Der/vv, der skal følge transitivitet mv. som alle andre derivativer. Det er derfor helt forkert, når der i fst-en optræder "endelser" som *gina eller når en form som tikkummisissunniarina optræder i LEXICON XTgujaaX2. Den skal selvfølgelig processeres i XIgujoqX3 +! +!Gør således for at processere fx paarigina (paare+Gram/TV+GI+Der/vv+Gram/Refl+Gram/IV+V+Imp+2Sg) korrekt +! +!paare:paar -> LEXICON HTR_schwa_SAQ_si -> LEXICON TVschwa +! +!XTgujaaX er altså det første derivativ-lexicon, vi møder, så overgangen til refleksiv må muliggøres her. Derfor tilføjes følgende linie til XTgujaaX +! +Gram/Refl@U.Refl.On@:@U.Refl.On@ XIgujoqX ; +! +!paare, som nu har formen paare+Gram/TV+GI+Der/vv:paar%>igi har nu to veje at gå: +! +!Uændret som transitiv til LEXICON XTgujaaX - paare+Gram/TV+GI+Der/vv:paar%>igi +!Som refleksiv til LEXICON XIgujoqX i formen paare+Gram/TV+GI+Der/vv+Gram/Refl:paar%>igi +! +!Oprydning: +!I LEXICON XTgujaaX slettes en intransitiv endelse (+Gram/Refl+V+Imp+2Sg:%>ina K_TUQ ; !tikkummisissunniarina), alle -i- først i "endelserne" fjernes og der tilføjes %VTRUNC før labialmetatese på ujaa.* +!LEXICON XIgujoqX gennemrettes for ca. de samme fejl +! +!Derefter har vi de ønskede former og analyser. Fx +! +!Pers-Mac-Pro:src per$ echo paarigina | time hfst-lookup -q ~/langtech/kal/src/analyser-disamb-gt-desc.hfstol +!paarigina paare+Gram/TV+GI+Der/vv+Gram/Refl+Gram/IV+V+Imp+2Sg 0.000000 + +!Pers-Mac-Pro:src per$ echo paarigujaat | time hfst-lookup -q ~/langtech/kal/src/analyser-disamb-gt-desc.hfstol +!paarigujaat paare+Gram/TV+GI+Der/vv+V+Ind+3Sg+3PlO 0.000000 +! +!Pers-Mac-Pro:src per$ echo ajunngikkina | time hfst-lookup -q ~/langtech/kal/src/analyser-disamb-gt-desc.hfstol +!ajunngikkina ajor+Gram/IV+NNGIT+Der/vv+Gram/IV+GI+Der/vv+V+Imp+2Sg 0.000000 + +!Behandlingen af upper-lower indgange i lexc: +!Der har i årenes løb ikke været nogen konsekvent procedure for behandlingen af lexemer, der indgår i lexc som upper-lower strukturer. +!Dette har bl.a. ført til at mange verber genereres uden oplysninger om transitivitet eller med Gram/[IT]V gentaget uønsket. +!Fra sommeren 2021 tilstræbes derfor en standardiseret procedure her illustreret ved et intransitivt verbum: +!1. Den komplekse stamme tilføjes med samme analyse, som den ville have fået, hvis den var genereret fra den usammensatte stamme +!2. upper-lower stammen sendes IKKE til de normale indgangslexica, men til det relevante mod-lex +!suli+Gram/IV+NIRLUP+Der/vv:sullerlup IV-mod_C ; + +!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! + +!! ## Tronds afdeling for debugging. + +!! Følgende leksika var ikke defineret andetsteds (liste), men her +!! definert ad hoc for at få koden til at kompilere. De bør alle +!! bli erstattet af de korrekte leksika (eller fjernet).: + +!LEXICON Z1PZmorf # ; !!≈ - @CODE@ +!LEXICON Z1nnguaqPZ # ; !!≈ - @CODE@ +!LEXICON Z2+rPZ # ; !!≈ - @CODE@ + +!! Det kan være flere grunder hertil: +!! * de er simpelthen ikke definerede +!! * det korrekte leksikon er ikke tilføjet, og lexc tar suffikset istedenfor +!! * det er en skrivefejl i leksikonnavnet + + +!! ## DERIVATIONSMORFEMERNES LEKSIKA + +!! Her kommer en liste over de ulike leksika. +!! Nogle af dem er dokumenterede, andre ikke. + + +!==================== +!Verbernes paradigmer +!==================== + +! IV -> flex-iv* +! IVschwa -> flex-iv_schwa* +! IV_voq -> flex-iv_voq* +! XIi_voqXmorf -> flex-iv_voq* +! XIiXmorf -> XIiX* +! XItX -> flex-iv* +! XIitX -> flex-iv* til sequmippoq men sequmisippaa +! XItsXmorf -> XItsX* +! XIuteXmorf -> flex-iv* +! XItsXmorf -> XItsX* +! TV -> flex-tv*, som indeholder derivativer til transitive verber +! TV_vaa -> flex-tv_vaa* +! TVi_vaa -> flex-tv_ivaa* +! XTuteXmorf -> XTuteX* +! XTutePXmorf -> XTutePX* +! TVi_vaa -> flex-tv_ivaa* ass.tunivaa +! TVschwaP -> XTPX_schwa* +! TVschwa -> flex-tvschwa* +! XTtX -> flex-tv ass. nakappaa, nunguppaa +! XIkujoqX, som indeholder de få ord med tilhænget {gi} og endelserne på -gujoq