Támadóminták detekciója gépi tanulásban

Feladatom egy támadó minták (adversarial examples) észlelésére szolgáló modell megtervezése, implementálása, majd vizsgálata. Egy egyszerűbb, limitált erőforrásokkal rendelkező rendszerben (példának okáért IoT rendszerben, valamint önvezető autóknál), kritikus lehet a gyors és pontos működése a modellnek. Éppen emiatt egyszerűbb a támadó mintás támadásokat észlelni, mint sem a modellünket felkészíteni rájuk, azaz védekezni ellenük. Azért is jobb több esetben, mert a védekező megoldások nagy része rontja az eredeti támadott modell pontosságát. Dolgozatomban sikeresen létrehoztam egy egyszerű támadott modellt, melyet FGSM algoritmussal generált támadó mintákkal szerettünk volna megtámadni. Annak érdekében, hogy ezt detektáljuk, létrehoztunk egy teljesen különálló modellt, melyet az eredeti modell alapján tanítottunk be. Ezt úgy értük el, hogy az eredeti támadott modell utolsó előtti rejtett lineáris rétegének az aktivációs értékeit kinyerve, valamint a kimeneti réteg által adott értékeket összefűzve, létrehoztunk egy tanító adathalmazt. Ezen adathalmazzal betanítottuk a deteciós modellt, mely egészen magas 90% feletti pontosságot ért el. Ezen modell tesztelése szempontjából JSMA algoritmussal is generáltunk támadást, melynek segítségével leteszteltük a detekciós modellt. Ezen támadás ellen már nem volt pontos a modell ugyanis csak 37% -os eredményt ért el, azaz a támadó minták több mint felét átengedte a rendszeren. Eredményeim alapján a modell nem teljesít jól olyan algoritmussal generált támadáson, melyen nem lett betanítva , tehát nem tudtunk univerzális detektáló modellt létrehozni, azonban az eredmények megmutatták, hogy lehetséges az ilyen fajta detektálás, azonban sokkal több optimalizálást igényel és tanítást is.

Nagy Zoltán

2022-12-15

Támogató: Quadron Kibervédelmi Zrt.