Autonóm vezetést támogató mély megerősítéses tanulás elméleti és alkalmazott vizsgálata bonyolult környezetekben

Kutatásom célja olyan autonóm vezetést támogató új mélytanuló eljárás elméleti megalapozása és kidolgozása volt, mely a szimulációs környezet mellett valós környezetben is képes megbízható működésére. A kutatás során többek között vizsgáltam hogyan lehet szimulációs környezetben önvezető ágenst oly módon sávkövetésre betanítani, hogy később jelentősen komplexebb, valós környezetben is képes legyen a szimulációs környezetben nyújtotthoz hasonló teljesítményre. Ezt támogatva olyan feldolgozási lépéseket vezettünk be, mint például a bemeneti megfigyelések átméretezése, fontosabb részek kivágása, véletlenszerű környezetek bevezetése, normalizálás és képszekvenciák létrehozása. Ezeket a lépéseket a szimulációs környezetben alkalmazva mély megerősítéses tanulás segítségével betanítottunk egy ügynököt, majd a szimulációs és valós környezetben is teszteltük. A módszer robusztusságát szélsőséges tesztforgatókönyvekkel támasztottuk alá: éjszakai körülmények között, valamint érvénytelen pozíciókról való indulással is teszteltük a megoldást, mely eseteket a normál körülményekhez képest minimális hibával teljesített. Ezen túl kétlépcsős eljárást dolgoztunk ki, amely mind a szimuláció környezetből valós környezetbe, mind pedig valósból szimulációs környezetbe képes az adatokat átalakítani vizuális médium esetén. VAE-GAN (enkóder: variációs autoenkóder – VAE, dekóder: generatív versengő hálózat – GAN) alapon önfelügyelt környezet adaptációs eljárást dolgoztunk ki, amelyet mind a valós, mind a szimulációs környezetből származó adatokkal tanítottunk. A VAE enkóderbe megkötést vezettünk be, miszerint a különböző környezetekből az adatokat közös látens térbe képezze le. Ezt követően PPO (Proximal Policy Optimization) alapú ágenst tanítottunk be mély megerősítéses tanulás segítségével a szimulációs környezetben, ahol a környezet a VAE látens terébe leképzett absztrakt adatstruktúra volt. A módszer teljesítményét autonóm vezetési környezetben vizsgáljuk. Az eredmények alapján módszerünkkel utólagos finomhangolás nélkül is lehetséges a különböző környezetek között adaptálni az ágens stratégiáját.

Dr. Gyires-Tóth Bálint

2022-03-21

Támogató: Continental Hungary Kft.