A HUMor morfológiai rendszer az ún. unifikációs nyelvleíráson alapul. Ennek lényege, hogy a szóalaktani leírásban releváns egységek (tövek, toldalékok) a szóalakokban elfoglalt helyük és más morfémákkal való együttes előfordulásra való alkalmasságuk szerint ún. jegyekkel vannak osztályozva. Ezen jegyek értékei lehetnek egymással összeférők vagy egymásnak ellentmondók. Ezek szerint egy szóalak csak olyan egységekből épülhet fel, amelyek az adott nyelv szóalaktana szerint ,,megtűrik'' egymást.
A HUMor elemző modulja
A HUMor elemző moduljának önálló alkalmazásként futó változata két üzemmódban működik:
- szavankénti elemző módban és
- szövegelemző módban.
A szavankénti módban a felhasználó egy betűköz nélküli karaktersorozatot gépel be (Enterrel lezárva), a rendszer pedig ennek elemzésével válaszol. Az elemzés eredménye lehet "ismeretlen'' (ezt a szót megelőző százalék-szimbólum jelzi, helyesen felépített szóalak esetén pedig a szóalak minden lehetséges teljes felbontását listázza ki (mind a képernyőre, mind a humor.out nevű fájlba) a program.
Példa:
> váratokban vár[FN]+atok[PSt2]+ban[INE]
> váratban %váratban
A felbontás nem pusztán szegmentálást jelent, hanem minden morféma után kapcsos zárójelben ott áll a szófaji megjelölés, valamint a nem szótári alakjukban megjelenő morfémák esetén – egyenlőségjel előtt – a morféma szótári alakja.
Példa:
> mehetsz
megy[IGE]=me+het[HAT]+sz[e2]
Magyar szóalaktani elemzés a HUMor modullal
A magyar morfológiai elemző a szavakat tőre (tövekre) és a 20. század végi magyar köznyelv produktív (tehát ma is működő) és gyakori toldalékaira bontja szét.
Példa:
Nem ismeri tehát pl. a látá régiesen toldalékolt alakot, vagy a megy ige mén alakját:
> látá %látá
> mén mén[FN]
Nem foglal állást az egyes toldalékmorfémák képző, rag és jel kategóriákba való besorolását illetően sem. Ezzel szemben magukat a morfémákat felismeri, lehetőséget adva a különböző felfogású kutatóknak az általuk preferált interpretáció használatára. A rendszer által felismert morfémák kategóriakódjainak felsorolása a cikk végén található.
A rendszer az írott nyelv szavait elemzi és semmiféle transzformációt nem használ. Egyetlen információforrása a felszínen megjelenő szóalak, és válaszként is az ennek megfelelő betűsorozat szegmentálását adja. Ez a szegmentálás � mint korábban már jeleztük � olykor kiegészül a szótári alapalakra vonatkozó információval, de mindez úgy történik, hogy egy megfelelő szűrő használatával az eredeti szöveg egy gombnyomásra visszaállítható legyen.
Példa:
> kelyheket kehely[FN]=kelyh+ek[PL]+et[ACC] Szűrő: ----- -- -- >>>> kelyh ek et
A magyar szóalakok elemzésekor a következő – részben teljesen magától értetődő, részben sajátos, a rendszer felépítéséből következő – elvek érvényesülnek:
- minden magyar szóalaknak van szótári töve,
- minden tő vagy egyszerű vagy összetett,
- ha egy tő összetett, az azt jelenti, hogy két olyan tagra bontható, melyek mindegyike a rendszer szótárában szerepel,
- ha tehát a tő többszörösen összetett, az azt jelenti, hogy valamelyik tagja mint összetett szó része a rendszer szótárának,
- többszörös összetétel esetén tehát csak a közvetlen összetételi alaptagokra való felbontás jelentkezik, míg magukat ezeket a tagokat a rendszer önmagukban tovább is fel tudja bontani.
Példa:
> fakutyakészítő
fakutya[FN]+készítő[FN]
fakutya[FN]+készít[IGE]+ô[MIF]
Tehát nem jelenik meg a fakutya szó felbontása, míg önmagában igen:
> fakutya fakutya[FN] fa[FN]+kutya[FN]
Az összetételek kezelése – a rendszer szemantikai ismereteinek teljes hiányában – kizárólag formális alapon történhet. Minden jelöletlen nominális, pontosabban főnév-főnév vagy melléknév-főnév összetétel megengedett, hacsak ez nincs valamilyen más módon letiltva. A jelölt, tehát az előtag végén valamilyen toldalékot tartalmazó összetételeket a program egyáltalán nem kezeli algoritmikusan, minden ilyent (pl. jótállás) fel kell sorolni a rendszer szótárában.
Példa:
> jön-megy jön[IGE]-megy[IGE]
> ajtó-ablak ajtó[FN]-ablak[FN]
> jön-ablak %jön-ablak
Amennyiben érdekli morfológiai elemzőnk, vegye fel a kapcsolatot Prószéky Gáborral!
|