markov qaror jarayonlari (mdp)

PPTX 10 pages 4.5 MB Free download

Page preview (5 pages)

Scroll down 👇
1 / 10
powerpoint presentation markov qaror jarayonlari (mdp): qaror qabul qilishning matematik modeli mdp nima? markov qaror jarayonlari (mdp) agentning ketma-ket qarorlar qabul qilishi va natijalar qisman tasodifiy, qisman nazorat ostida bo8lgan vaziyatlarni modellashtirish uchun ishlatiladigan matematik asosdir. 1 agent va atrof-muhit har bir qadamda agent hozirgi holatni kuzatadi, harakat qiladi, atrof- muhitdan mukofot oladi va yangi holatga o8tadi. 2 maqsad agentning asosiy maqsadi 4 uzoq muddatli istiqbolda to8plangan mukofotni maksimal darajada oshirishdir. mdp ning 5 asosiy komponenti har qanday markov qaror jarayoni ushbu beshta elementga asoslanadi, ular tizimning dinamikasini to8liq tavsiflaydi: s 4 holatlar to8plami agent bo8lishi mumkin bo8lgan barcha vaziyatlar. a 4 harakatlar to8plami agent har bir holatda tanlay oladigan imkoniyatlar. p 4 o8tish ehtimolliklari muayyan harakatdan keyin bir holatdan ikkinchisiga o8tish ehtimoli p(s' | s, a). r 4 mukofot funksiyasi har bir holat va harakat kombinatsiyasidan kelib chiqadigan daromad yoki zarar r(s, a). ³ 4 chegirma omili kelajakdagi mukofotlarning …
2 / 10
oxastik mdplarda esa natijalar ehtimollik asosida o8zgaradi, bu esa noaniqlikni aks ettiradi. cheklangan vaqtli vs. cheksiz vaqtli vazifa ma¾lum qadamlar soni ichida bajarilishi mumkin (cheklangan vaqtli), yoki doimiy davom etishi mumkin (cheksiz vaqtli), bu holda uzoq muddatli strategiya talab qilinadi. episodik vs. davomiy episodik vazifalar (masalan, yetkazib berish) qayta boshlanishi mumkin. davomiy vazifalar (masalan, patrul qilish) esa agentning doimiy o8rganishini talab qiladi. mdp matematik modeli va siyosat (policy) mdpning asosiy maqsadi optimal siyosatni (strategiyani) topishdir. siyosat 4 bu har bir holatda qaysi harakatni tanlashni belgilovchi funksiya. 1 siyosat ã(s) ã(s) funksiyasi berilgan holatda agentning qaysi harakatni bajarishini ko8rsatadi. bu, agentning xulq-atvorini belgilaydi. 2 optimal maqsad agentning maqsadi 4 vaqt o8tishi bilan olinadigan mukofotlarning kutilgan yig8indisini maksimal darajada oshiruvchi siyosatni topish. 3 bellman tenglamasi optimal qiymat funksiyasi (v*) va optimal siyosat (ã*) bellman tenglamasi yordamida topiladi. bu tenglama dinamik dasturlash usulida hal qilinadi. amaliy misol: 3x4 katakli dunyo keling, 3x4 katakli …
3 / 10
r o8yinlarida eng yaxshi harakatlarni tanlash. sog8liqni saqlash bemorlar uchun davolash rejalarini optimallashtirish, kasalliklarni tashxislash va oldini olish. avtonom transport avtomobillarning xavfsiz yo8l tanlashi, harakatni rejalashtirish va atrofdagi obyektlarga javob berishi. inventar boshqaruvi doimiy talab o8zgarishlari sharoitida optimal buyurtma siyosatini aniqlash va zaxiralarni boshqarish. mdp va mustahkamlash o8rganish (reinforcement learning) markov qaror jarayonlari mustahkamlash o8rganishning nazariy asosini tashkil etadi. bu sohada agentlar tajriba orqali optimal harakatlarni o8rganishadi. mustahkamlash o8rganishda agent atrof-muhit bilan o8zaro ta¾sirda bo8ladi, harakatlar qiladi va olingan mukofotlar asosida o8z siyosatini yaxshilaydi. q-learning, sarsa va deep q-network (dqn) kabi algoritmlar mdpning optimal yechimlarini topish uchun keng qo8llaniladi. ushbu algoritmlar agentga qaysi holatda qaysi harakat eng ko8p mukofot berishini topishga yordam beradi, hatto o8tish ehtimolliklari va mukofotlar dastlab noma¾lum bo8lsa ham. xulosa: mdp 4 qaror qabul qilishda kuchli matematik vosita optimal qarorlar noaniqlik va ketma-ketlikni hisobga olgan holda optimal qarorlar qabul qilish uchun asos. keng qo8llanilish sun¾iy intellekt, robototexnika, …
4 / 10
markov qaror jarayonlari (mdp) - Page 4
5 / 10
markov qaror jarayonlari (mdp) - Page 5

Want to read more?

Download all 10 pages for free via Telegram.

Download full file

About "markov qaror jarayonlari (mdp)"

powerpoint presentation markov qaror jarayonlari (mdp): qaror qabul qilishning matematik modeli mdp nima? markov qaror jarayonlari (mdp) agentning ketma-ket qarorlar qabul qilishi va natijalar qisman tasodifiy, qisman nazorat ostida bo8lgan vaziyatlarni modellashtirish uchun ishlatiladigan matematik asosdir. 1 agent va atrof-muhit har bir qadamda agent hozirgi holatni kuzatadi, harakat qiladi, atrof- muhitdan mukofot oladi va yangi holatga o8tadi. 2 maqsad agentning asosiy maqsadi 4 uzoq muddatli istiqbolda to8plangan mukofotni maksimal darajada oshirishdir. mdp ning 5 asosiy komponenti har qanday markov qaror jarayoni ushbu beshta elementga asoslanadi, ular tizimning dinamikasini to8liq tavsiflaydi: s 4 holatlar to8plami agent bo8lishi mumkin bo8lgan barcha vaziyatlar. a 4 harakatlar to8p...

This file contains 10 pages in PPTX format (4.5 MB). To download "markov qaror jarayonlari (mdp)", click the Telegram button on the left.

Tags: markov qaror jarayonlari (mdp) PPTX 10 pages Free download Telegram