Adatbányászat és ajánlás szolgáltatások vizsgálata nyílt forráskódú megoldások skálázható architektúrán

Adatbányászat és ajánlás szolgáltatások vizsgálata nyílt forráskódú megoldások skálázható architektúrán

 

Rendszereink napról napra egyre több adatott gyűjtenek össze, deagyakorlatban az adatnak önmagábbancsekély értéke van, az alkalmazások számára az adathalmaz mögött rejlő információk, trendek, kiugró jelenségek a kulcsfontosságúak és érdekesek. Az ilyen információk felderítése, azonosítása és jellemzése az adatbányászat fő feladata.
Az adatokbólazinformáció kinyerésig az út viszont gyakran nehézkes és hosszas.Meg kell oldani olyanproblémákatmint példáulaz adat eltárolása, strukturálása,adatmennyiség csökkentése(zajszűrés, mintavételezés), transzformációja, több algoritmus kipróbálása, majd ezek értelmezése és értékelése. Eza probléma az utóbbi évtizedbenadatmennyiség nagyságrendbeli növekedése miatt csak tovább fokozódott.
Ugyanakkor egyre inkább teret hódítanak a nyílt forráskódú megoldások. Ezek közismert problémákat oldanak meg, bevonva az érdeklődök minél nagyobb körét és kihasználva a közösségben rejlő erőt.Ilyen például az elosztott adattárolás és feldolgozás platformot szolgáló Apache Hadoop és Hbase. Az adatbányászat területén ezt főleg az Apache Mahout jelenti, amely épít a már említett technológiákra.
A hallgató feladatának a következőkre kell kiterjednie:
• Ismerje meg és mutassa be a nyílt forráskódú és skálázható adatbányászatottámogató rendszereket!
• Válaszon ki egy adathalmazt, és azon tesztelje a rendszer funkcionalitását!
• Elemezze ennek teljesítményét és költségigényét (futási és fejlesztési)!
• Hasonlítsa össze azeredményeket a Gravity Research & Development Zrt.által fejlesztett platformmal

Tanszéki konzulens:  Dr. Ekler Péter
Külső konzulens:  Dr. Tikk Domokos (Gravity Research&Development Zrt.)

Kutatási beszámoló

Készítette: Gábor Bernát

2013.