Többszavas kifejezések szűrése és indexelése korpuszokban, véges állapotú eljárások alkalmazásával |
A kutatás célja a szóértékű többszavas kifejezések (többszavas lexémák) folytonos szövegekben való kimutatása és azokból való kiemelése, megjelölése (indexelése) volt. A kutatás időszakában a MorphoLogic műhelyében – részben az OTKA-támogatás felhasználásával – olyan mondatelemző rendszer jött létre, amely alkalmas folytonos szövegek részleges elemzésére, így – megfelelő nyelvtan birtokában – többszavas lexémák kiemelésére. Ehhez a programhoz különféle részleges nyelvtanok születtek; a műhely szempontjából a névszói csoportok általános kiemelésére szolgáló nyelvtan a legfontosabb, de foglalkoztunk a határozói szerkezetek kiemelésével is. A kutatás során kezelnünk kellett a többszavas lexémák definíciós problémáit is; a taxonómiában elsősorban a néventitásokkal és a terminológiával foglalkoztunk. A létrehozott elemzőrendszer jelentős előrelépést jelenthet a hazai korpusznyelvészeti kutatásokban.
A projekt az OTKA-NWO N34019 számú pályázat részleges támogatásával valósult meg.
A projekt futamideje: 2001.02.01.–2002.12.31.
A projektben résztvevő kutatási partnerek:
Groningeni Királyi Egyetem (Hollandia) - Bölcsészettudományi Informatika tanszéke
|