q-o'rganish (q-learning)

PPTX 9 pages 61.7 KB Free download

Page preview (4 pages)

Scroll down 👇
1 / 9
powerpoint presentation q-learning 1. q-o'rganishga kirish va asosiy tushunchalar 2. q-o'rganish algoritmi va uning asosiy elementlari 3. q-o'rganishning afzalliklari, kamchiliklari va kelajakdagi yo'nalishlari reja: q-o'rganish - bu model-erkin mustahkamlash orqali o'rganish algoritmi bo'lib, u agentning atrof-muhit haqidagi modelini bilmasdan optimal strategiyani o'rganishga imkon beradi. q-jadval har bir davlat-harakat juftligi uchun q-qiymatlarni saqlaydi. q-qiymat ushbu davlatda harakatni bajarishning kutilayotgan mukofotini aks ettiradi va iterativ ravishda yangilanadi. bellman tenglamasi q-qiymatlari o'rtasida rekursiv munosabatni ifodalaydi, hozirgi davlat- harakat juftligining q-qiymatini keyingi davlatning maksimal q-qiymati bilan bog'laydi. gamma qiymati mukofotlarni hisoblashda muhim. q-o'rganish: asosiy tushunchalar va algoritmlar q-jadval, bellman tenglamasi va yangilanish qoidasi q-jadval har bir holat-harakat juftligi uchun q-qiymatlarni saqlaydi; bu qiymatlar optimallashtirilgan siyosat orqali kutilgan mukofotni ifodalaydi va iterativ tarzda 0 dan boshlab yangilanadi. bellman tenglamasi optimal q-qiymatni hisoblash uchun matematik asos bo'lib xizmat qiladi: q(s, a) = r(s, a) + gamma * max[q(s', a')] bo'lib, kelajakdagi mukofotlarni hisobga oladi. q-o'rganishda yangilanish …
2 / 9
a) yangi ma'lumotning q-qiymatni qanchalik yangilashga ta'sir qilishini aniqlaydi; 0,1 alfa qiymati kichik o'zgarishlarni, 1,0 esa faqat yangi ma'lumotni qabul qilishni ko'rsatadi. q-o'rganish misollari va ilovalari robototexnikada q-o'rganish robotga turli xil harakatlarni sinab ko'rish orqali labirintdan o'tishni o'rgatish uchun ishlatilishi mumkin, masalan, 0 dan 1 gacha bo'lgan mukofotlar bilan. bu 80% dan ortiq muvaffaqiyatga olib kelishi mumkin. o'yinlarda q-o'rganish kompyuter o'yinlarini o'ynash uchun aqlli agentlarni yaratadi, masalan, atari o'yinlari; agent 0,1 dan 1 gacha qiymatli mukofotlar orqali 90% dan ortiq optimal strategiyalarni o'rganishi mumkin. resurslarni boshqarishda q-o'rganish elektr stantsiyalari va suv omborlaridagi 20% tejamkorlikni ta'minlash uchun energiya narxini va talabni muvozanatlashtiradigan optimal energiya taqsimoti strategiyalarini ishlab chiqadi. q-o'rganishning afzalliklari, kamchiliklari va parametrlarni sozlash alfa (o'rganish darajasi) 0 dan 1 gacha bo'lgan qiymatga ega; yuqori qiymat yangi ma'lumotga ko'proq e'tibor beradi, past qiymat esa avvalgi ma'lumotni saqlaydi. gamma (chegirma faktori) ham 0 va 1 orasida bo'ladi. q-o'rganishning afzalligi - modelga bog'liq …
3 / 9
ni bartaraf etadi. muqobil algoritmlar, masalan, sarsa, politsiya bo'yicha o'rganishdan foydalanadi, dqn esa off-politsiya o'rganishidan foydalanadi, bu unga turli xil xatti-harakat siyosatlaridan ma'lumot olish imkonini beradi. e'tiboringiz uchun rahmat slide 1 slide 2 slide 3 slide 4 slide 5 slide 6 slide 7 slide 8 slide 9
4 / 9
q-o'rganish (q-learning) - Page 4

Want to read more?

Download all 9 pages for free via Telegram.

Download full file

About "q-o'rganish (q-learning)"

powerpoint presentation q-learning 1. q-o'rganishga kirish va asosiy tushunchalar 2. q-o'rganish algoritmi va uning asosiy elementlari 3. q-o'rganishning afzalliklari, kamchiliklari va kelajakdagi yo'nalishlari reja: q-o'rganish - bu model-erkin mustahkamlash orqali o'rganish algoritmi bo'lib, u agentning atrof-muhit haqidagi modelini bilmasdan optimal strategiyani o'rganishga imkon beradi. q-jadval har bir davlat-harakat juftligi uchun q-qiymatlarni saqlaydi. q-qiymat ushbu davlatda harakatni bajarishning kutilayotgan mukofotini aks ettiradi va iterativ ravishda yangilanadi. bellman tenglamasi q-qiymatlari o'rtasida rekursiv munosabatni ifodalaydi, hozirgi davlat- harakat juftligining q-qiymatini keyingi davlatning maksimal q-qiymati bilan bog'laydi. gamma qiymati mukofotlarni hisoblashda...

This file contains 9 pages in PPTX format (61.7 KB). To download "q-o'rganish (q-learning)", click the Telegram button on the left.

Tags: q-o'rganish (q-learning) PPTX 9 pages Free download Telegram