Nagyszótáras folyamatos magyar nyelvű beszédfelismerés nyelvmodellezési kérdései

A gépi beszédfelismerő rendszerek egyik alapvető építőeleme a nyelvi modell, mely az egyes szósorozatok valószínűségét képes megbecsülni, így segít az akusztikai paraméterek alapján felmerülő hipotézisek (szósorozatok) közül kiválasztani a legnagyobb valószínűséggel rendelkezőt. Féléves kutatómunkám során televíziós feliratozó rendszerek nyelvi modelljének továbbfejlesztésén dolgoztam. Az első probléma, mellyel foglalkoztam elsősorban sportközvetítések gépi feliratozása során merül fel, ahol rengeteg személynév pontos felismerését kell megoldani. Kísérleteimben a 2016 labdarúgó Labdarúgó-Európa-bajnokság felvételeit feliratoztam gépi úton. Egy speciális adaptációs eljárással sikerült egy általános sport nyelvi modell szótárát utólag bővítenem az EB szereplők névsorával, így jelentős mértékben javult a feliratozás pontossága. A módszer bármely sportközvetés feliratozása során használható a jövőben.

A második probléma, amivel foglalkoztam a jelenleg használt ún. n-gram nyelvi modellek leváltására irányult. Azt vizsgáltam, hogy ún. rekurrens neurális hálózatok használatával milyen mértékű perplexitás javulás érhető el különböző televíziós feliratozási feladatok esetén. Azt találtam, hogy mind általános, mind feladatspecifikus feliratozási korpusz (híradó, időjárásjelentés) esetén igen jelentős javulás kaphatunk a visszacsatolt neurális hálózatokkal különösen, ha az n-gram modellekkel együtt, interpolálva használjuk őket. A jövőben azt kívánjuk feltárni, hogy a neurális nyelvi modellekkel mérhető perplexitás csökkenés milyen mértékű beszédfelismerési hibacsökkenéssé alakítható.

Tarján Balázs, tanszéki mérnök, BME-TMIT

A kutatási beszámoló letölthető innen (PDF)

2017.07.10.