Idősorok előrejelzése Stream Processing rendszerekben

Manapság az egyre szélesebb körben elterjedt elektronikai eszközöknek, szenzoroknak és informatikai rendszereknek, valamint a kommunikációs technológiák fejlődésének köszönhetően egyre nagyobb mennyiségű adat áll ténylegesen valós időben a rendelkezésünkre. Ezzel párhuzamosan az igény is megnövekedett olyan rendszerekre, amelyek a valós idejű adafolyamon képesek műveletek elvégzésére, hiszen az adatfolyamok valós idejű analízise óriási értéket képviselhet tetszőleges domainen belül. Például pénzügyi adatok esetén piaci előnyhöz juthatunk ha a versenytársaknál korábban jutunk a legújabb információkhoz, egy smart-metering rendszerben a váratlan anomáliák detekciójával nagyobb erőforrás kieséseket előzhetünk meg, de akár az okos járművekből érkező szabványos adatok kiértékelésével a városok forgalmát is optimalizálhatjuk ezzel csökkentve a káros anyag kibocsátást. Az Apache Kafka és az Apache Flink keretrendszerek a legelterjedtebb megoldások között szerepelnek, amelyek nagymennyiségű valós idejű adat feldolgozosára alkalmasak. A Kafkát és a Flinket már régóta és széleskörben alkalmazzák az iparban, illetve open-source projektek révén komoly közösség is szerveződött köréjük. Ezek a technológiák számos alapvető garancia mellett lehetővé teszik, hogy akár komplex állapottal rendelkező műveleteket is lehessen az adatokon végrehajtani. A Kafka és Flink páros használata lehetővé teszi előre betanított Machine Learning (ML) modellek alkalmazását is, amelyek segítségével például idősorok jövőbeli állapotát lehet előrejelezni, mintázatokat vagy anomáliákat tudunk azonosítani. Az ML modellek alkalmazásával tovább erősíthető a stream processing rendszerek szerepe. A kutatási munka célja, hogy alkossunk meg egy általános keretrendszert, amely lehetővé teszi egyváltozós idősorok előrejelzését Kafka és Flink technológiák alkalmazásával. A feladat fontos része az is, hogy vizsgáljuk meg a létező megoldásokat azokat hasonlítsuk össze, majd vessük össze a konkrét implementációk teljesítményét. A munka legyen kellően általános és jól dokumentált ahhoz, hogy azt későbbiekben más fejlesztők is sikeresen tudják alkalmazni tetszőleges domainben.

Nagy Attila Mátyás

2021-07-08

Támogató: Cloudera