Sémaillesztési algoritmusok performanciájának javítása

A sémaillesztési algoritmusok feladata, hogy egymásnak szemantikusan megfeleltethető entitásokat találjon a bemeneti sémák definíciójában. Többféle megközelítést alkalmaznak a sémaillesztési eljárások.

A lingvisztikus illesztő a sémadefiníciók szöveges elemeit hasonlítja össze valamilyen szintaktikus eljárás segítségével, a vokabuláris kiértékelő a szövegelemekből kibontott szavak szemantikus távolságát határozza meg valamilyen külső szótár, szógyűjteménye, strukturált kifejezéstár segítségével, míg a strukturális kiértékelő a sémagráfok felépítésében rejlő hasonlóságok alapján hoz döntést a sémaelemek szemantikus távolságát illetően. Ezeket az eljárásokat jellemzően nem egyedileg, hanem egy kombinált eljárás – az ún. kompozit sémaillesztő – részeként használjuk. Ha a kombinált sémaillesztési eljárásokra teljesül, hogy azok eltérő típusúak, akkor azt hibrid sémaillesztési eljárásnak nevezzük. Mivel a jelenlegi sémaillesztési eljárások pontossága még nem száz százalékos, ráadásul az illesztési pontosságok utólagos korrigálása tetemes, így azok továbbfejlesztésére szükség. A kitűzött performanciajavítási objektíva keretében tehát egy új, javított sémaillesztési eljárást alkottam, amely finomítja az eddig használatos lingvisztikus, vokabuláris és strukturális kiértékelőket, valamint egyesíti azokat egy új, önálló, hibrid sémaillesztési eljárásban. A lingvisztikus kiértékelő az általam kidolgozott logisztikus homoszekvencia (LHS) hasonlóságmetrikán alapul. A kapcsolt fogalomhalmaz hasonlóságkiértékelője figyelembe veszi a kapcsolt fogalmak előfordulási gyakoriságát. Végül a strukturális kiértékelője az általam javasolt szomszédossági szint hasonlóságon alapul.

Dr. Villányi Balázs János, adjunktus, Budapesti Műszaki és Gazdaságtudományi Egyetem

2016.12.28.