qiymat iteratsiyasi algoritmi

PPTX 11 sahifa 7,2 MB Bepul yuklash

Sahifa ko'rinishi (5 sahifa)

Pastga aylantiring 👇
1 / 11
prezentatsiya powerpoint qiymat iteratsiyasi algoritmi: matematik asoslar va amaliy misollar reja 1, qiymat iteratsiyasi nima? 2, matematik asoslar: markov qaror jarayoni (mdp) 3, qiymat iteratsiyasining yangilash qoidasi mustaqil qaror qabul qilish va optimal strategiyalarni topishda qo'llaniladigan kuchli matematik vosita 1 qiymat iteratsiyasi nima? qiymat iteratsiyasi — markov qaror jarayonlarida (mdp) optimal siyosatni topish uchun ishlatiladigan dinamik dasturlash algoritmidir. bu algoritm har bir holat uchun maksimal kutilayotgan mukofotni hisoblashga asoslangan va qadamma-qadam qiymatlarni yangilab, optimal yechimga yaqinlashadi. algoritmning asosiy g'oyasi shundaki, biz har bir holatning qiymatini iterativ ravishda yangilab boramiz, bunda har bir yangilash jarayonida avvalgi qiymatlardan foydalanib, yangi, aniqroq qiymatlarni hisoblaymiz. bu jarayon optimal qiymatlarga yaqinlashguncha davom etadi. qiymat iteratsiyasi algoritmi 1950-yillarda richard bellman tomonidan ishlab chiqilgan dinamik dasturlash nazariyasining amaliy tatbiqidir va hozirgi kunda sun'iy intellekt, robototexnika, iqtisodiyot va boshqa ko'plab sohalarda keng qo'llanilmoqda. iterativ jarayon qiymatlar qadamma-qadam yangilanadi optimal yechim maksimal kutilayotgan mukofotni topadi matematik aniqlik konvergentsiya kafolatlanadi …
2 / 11
(a) har bir holatda agent bajara oladigan barcha amallar. harakatlar to'plami holatga bog'liq bo'lishi mumkin, ya'ni ba'zi holatlarda ma'lum harakatlar mavjud emas. bu robotning harakat imkoniyatlari, o'yin harakatlari yoki biznes qarorlari bo'lishi mumkin. 3 o'tish ehtimolliklari t(s,a,s') bu p(s'|s,a) ko'rinishida ifodalanadi va biror holatda (s) ma'lum harakat (a) bajarilganda yangi holatga (s') o'tish ehtimolligini bildiradi. stoxastik muhitlarda bu funksiya muhitning noaniqligini modellashtiradi. 4 mukofot funksiyasi r(s,a,s') agent (s) holatdan (a) harakatni bajarib (s') holatga o'tganda oladigan mukofot yoki jazo. bu funksiya agentning maqsadlarini aniqlaydi va qaysi harakatlar afzalroq ekanligini ko'rsatadi. diskont omili γ ∈ (0,1) kelajakdagi mukofotlarning qiymatini kamaytirish uchun ishlatiladi. bu parametr agentning qanchalik uzoq muddatli rejalashtirish qilishini nazorat qiladi: γ 1 ga yaqin bo'lsa, agent uzoq muddatli mukofotlarga ko'proq e'tibor beradi, 0 ga yaqin bo'lsa, faqat yaqin kelajakni hisobga oladi. 3 qiymat iteratsiyasining yangilash qoidasi qiymat iteratsiyasi algoritmining markazida bellman optimal tenglama asosida qurilgan yangilash qoidasi turadi. bu …
3 / 11
o'zgarish belgilangan chegara qiymatidan kichik bo'lganda, algoritm to'xtaydi. odatda |v_{k+1}(s) - v_k(s)| < ε sharti tekshiriladi. yangilash qoidasining komponentlari max operatori: barcha harakatlar orasidan eng yaxshisini tanlash summatsiya: barcha mumkin bo'lgan keyingi holatlar bo'yicha kutilayotgan qiymatni hisoblash mukofot r(s,a,s'): bevosita mukofot diskontlangan qiymat γvk(s'): kelajakdagi qiymat algoritmning ishlash printsipi har bir iteratsiyada algoritm barcha holatlar bo'yicha bir marta o'tadi va ularning qiymatlarini yangilaydi. bu parallel ravishda ham amalga oshirilishi mumkin, chunki yangi qiymatlar faqat oldingi iteratsiyadagi qiymatlarga bog'liq. yangilash qoidasi barcha mumkin bo'lgan harakatlarni baholaydi va eng yaxshi natija beradigan harakatni tanlaydi. bu "greedy" yondashuv optimal siyosatni topishga kafolat beradi. 4 bellman operatori va konvergentsiya qiymat iteratsiyasi algoritmining matematik asoslari bellman operatori va uning xossalariga tayanadi. bellman operatori b har bir holat-qiymat funksiyasini yangi funksiyaga o'tkazadigan matematik operator bo'lib, quyidagicha aniqlanadi: bellman operatorining xossalari bellman operatori bir qancha muhim matematik xossalarga ega bo'lib, ular qiymat iteratsiyasining konvergentsiyasini kafolatlaydi: siqilish xossasi …
4 / 11
gentsiya shunchalik tez bo'ladi. xatoning yuqori chegarasi quyidagicha baholanadi: iteratsiya boshlanishi v₀ = bv₀ dan ketma-ket yangilanishlar v₁, v₂, v₃, ... optimal qiymatga yaqinlashish vk → v* (k → ∞) optimal qiymat funksiyasi v* bellman operatorining qat'iy nuqtasi hisoblanadi, ya'ni v* = bv*. bu shuni anglatadiki, optimal qiymatlar bellman tenglamasini qanoatlantiradi va qiymat iteratsiyasi algoritmi ushbu optimal yechimni topadi. 5 amaliy misol: oddiy labirintda yo'l topish qiymat iteratsiyasi algoritmini ko'rsatish uchun 4×4 katakli oddiy labirint misolini ko'rib chiqamiz. bu misolda agent boshlanğich nuqtadan chiqishga borishni o'rganadi va har bir qadam uchun optimal strategiyani topadi. labirint tuzilishi va qoidalar labirint 4×4 katakdan iborat, jami 16 ta holat mavjud. agent har bir holatda to'rtta yo'nalishda (yuqori, pastga, chapga, o'ngga) harakat qilishi mumkin. ba'zi kataklarda to'siqlar mavjud, ularga kirib bo'lmaydi. boshlang'ich holat: chapki yuqori burchak (0,0) maqsad holat: o'ngki pastki burchak (3,3) — chiqish to'siqlar: ba'zi kataklar yopiq, ularga kirib bo'lmaydi harakat ehtimolliklari: …
5 / 11
mat iteratsiyasi algoritmini labirint misoliga qo'llab, quyidagi natijalarni oldik. grafik va vizualizatsiyalar algoritmning qanday ishlashini va optimal siyosatni topish jarayonini ko'rsatadi. grafik qiymatlarning iteratsiyalar davomida qanday o'zgarishini ko'rsatadi. biz ko'rishimiz mumkinki, dastlabki iteratsiyalarda qiymatlar tez o'zgaradi, keyin esa o'zgarishlar sekinlashadi va konvergentsiyaga yaqinlashadi. optimal yo'l uzunligi agent optimal siyosatni qo'llab, o'rtacha 8-9 qadamda chiqishga yetib boradi. bu eng qisqa va xavfsiz yo'l hisoblanadi. siyosat tuzilmasi har bir holatda aniq harakat belgilangan: chapki yuqori burchakdan boshlab, agent dastlab o'ngga, keyin pastga harakatlanadi va to'siqlardan qochadi. xavfsizlik optimal siyosat to'siqlarga urilish ehtimolini minimallashtirishga yo'naltirilgan. stoxastik muhit hisobga olingan. iteratsiyalar soni va samaradorlik algoritmning konvergentsiyasi 15 iteratsiyadan keyin yetarlicha aniq natijalarni berdi. qiymatlar o'zgarishi 0.1 dan kam bo'lganda, algoritm to'xtatildi. jami iteratsiyalar: 15 hisoblash vaqti: bir necha millisekundlar xotiradagi joy: o(n) — holatlar soniga proportsional optimal siyosatning afzalliklari topilgan siyosat nafaqat eng qisqa yo'lni ko'rsatadi, balki muhit noaniqligini ham hisobga oladi: to'siqlardan xavfsiz …

Ko'proq o'qimoqchimisiz?

Barcha 11 sahifani Telegram orqali bepul yuklab oling.

To'liq faylni yuklab olish

"qiymat iteratsiyasi algoritmi" haqida

prezentatsiya powerpoint qiymat iteratsiyasi algoritmi: matematik asoslar va amaliy misollar reja 1, qiymat iteratsiyasi nima? 2, matematik asoslar: markov qaror jarayoni (mdp) 3, qiymat iteratsiyasining yangilash qoidasi mustaqil qaror qabul qilish va optimal strategiyalarni topishda qo'llaniladigan kuchli matematik vosita 1 qiymat iteratsiyasi nima? qiymat iteratsiyasi — markov qaror jarayonlarida (mdp) optimal siyosatni topish uchun ishlatiladigan dinamik dasturlash algoritmidir. bu algoritm har bir holat uchun maksimal kutilayotgan mukofotni hisoblashga asoslangan va qadamma-qadam qiymatlarni yangilab, optimal yechimga yaqinlashadi. algoritmning asosiy g'oyasi shundaki, biz har bir holatning qiymatini iterativ ravishda yangilab boramiz, bunda har bir yangilash jarayonida avvalgi qiymat...

Bu fayl PPTX formatida 11 sahifadan iborat (7,2 MB). "qiymat iteratsiyasi algoritmi"ni yuklab olish uchun chap tomondagi Telegram tugmasini bosing.

Teglar: qiymat iteratsiyasi algoritmi PPTX 11 sahifa Bepul yuklash Telegram