Biztonságos kontextuális bandita algortimusok fejlesztése

Pro Progressio kutatói beszámoló A Microsoft Research a Reinforcement Learning Open Source Fest keretében hallgatóknak nyújt lehetőséget arra, hogy négy hónapos kutatói-programozói projekteken vegyenek részt. A céljuk, hogy különböző háttérrel rendelkező hallgatókkal a világ bármely pontjáról együtt dolgozzanak nyílt forráskódú projekteken, amik a mesterséges intelligencia technikákon belüli megerősítéses tanuláshoz kapcsolódnak. Ezek a tudomány mai állásának megfelelő kutatási és fejlesztési projektek, amiket nyílt forráskóddal mindenki számára elérhetővé tesznek. Azok a hallgatók, akik pályáztak erre a programra és bekerültek, ösztöndíjat kapnak a munkájukért. A projektem témája a biztonságos kontextuális bandita algoritmusok fejlesztése, amely a megerősítéses tanulás egy részterülete. A megerősítéses tanulás a gépi tanulás egyik fő ága, amelyben a tanulás egy változó környezettel történő szekvenciális interakciók által valósul meg. Minden egyes akció (döntéshozatal) után a jutalmat kap a tanuló algoritmus és célja ezen jutalmakat maximalizálni. A kontextuális bandita problémája egy speciális esete ennek, amely során extra információkat is figyelembe vesznek a környezetnél. A projekt célja olyan algoritmusok fejlesztése, amelyek alkalmazhatóak biztonságkritikus környezetekben is. Leggyakrabban ajánlórendszereknél használják ezeket a kontextuális bandita algoritmusokat, hogy személyre szabott hirdetéseket jelenítsenek meg a felhasználó számára. Ez esetben a hirdetésekre való kattintások alapján adaptálódik az algoritmus a felhasználó igényeihez. A biztonságos kontextuális bandita algoritmusok az általános kontextuális bandita problémáknak egy olyan megközelítése, ahol az ötlet az, hogy az eredeti helyett egy módosított jutalmat adunk át a tanítás során. Ehhez a portfólióelemzésben gyakran használt feltételes kockáztatott értéket (CVaR – Conditional Value at Risk) használjuk, ami a várható jutalom az esetek legrosszabb q%-ában. Ezzel kívánjuk maximalizálni a jutalmakat a legrosszabb esetekben is ahelyett, hogy az átlagos jutalmat akarnánk maximalizálni. A CVaR értékének optimalizálásával robosztus algoritmusokat kapunk, amik csak kis mértékű csökkenést mutatnak az átlagos jutalmak tekintetében, ugyanakkor sokkal jobb eredményeket adnak a kritikus esetekben.

Farsang Mónika

2021-07-19

Támogató: Microsoft Research