mustahkamlangan o'qitish algoritmlari

PDF 10 sahifa 466,1 KB Bepul yuklash

Sahifa ko'rinishi (5 sahifa)

Pastga aylantiring 👇
1 / 10
o’zbekiston respublikasi raqamli texnologiyalar vazirligi muhammad al-xorazmiy nomidagi toshkent axborot texnologiyalari universiteti samarqand filiali kompyuter injiniringi fakulteti sun’iy intellekt asoslari anidan mustaqil ish -3 mavzu: mustahkamlangan o‘qitish algoritmlari bajardi: ki 23-02 guruh ortiqboyev.d qabul qildi: axrorov.m.sh samarqand – 2024 mundarija: i. kirish. ii. asosiy qism. 2.1 q-o‘rganish (q-learning) algoritmi 2.2 sarsa algoritmi 2.3 q-o‘rganish va sarsa algoritmlarining taqqoslanishi iii. xulosa. iv. foydalangan adabiyotlar. i. kirish. zamonaviy sun’iy intellekt texnologiyalaridan biri bo‘lgan mustahkamlangan o‘qitish (reinforcement learning) algoritmlari tizimlarni o‘zaro bog‘langan muhitlarda qaror qabul qilishni o‘rgatish uchun ishlatiladi. ushbu maqolada mustahkamlangan o‘qitishning asosiy tamoyillari, q-o‘rganish (q-learning) va sarsa algoritmlarining ishlash usullari, ularning farqlari va qo‘llanilish sohalari tahlil qilinadi. ii.asosiy qism. 2.1 q-o‘rganish (q-learning) algoritmi q-o‘rganish mustahkamlangan o‘qitishdagi eng mashhur algoritmlardan biri bo‘lib, mukofot funktsiyasiga asoslangan holda optimal strategiyani aniqlashni maqsad qiladi. algoritm quyidagi tamoyillar asosida ishlaydi q-o‘rganish agentning muhitni o‘rganib, har bir holat uchun optimal harakatni tanlash qobiliyatiga asoslanadi. q-o‘rganish algoritmi iterativ …
2 / 10
yingi holat. • max⁡a′q(s′,a′)\max_{a'} q(s', a')maxa′q(s′,a′): keyingi holatda mavjud bo‘lgan harakatlar ichida eng yuqori q qiymat. avfzalliklari agent kelajakda kuzatilmagan holatlar uchun ham strategiyani o‘rganadi. mexanizmi tushunish oson va nazariy jihatdan kuchli, kichik va o‘rtacha o‘lchamli muhitlar uchun yaxshi ishlaydi. 2.2 sarsa algoritmi. sarsa (state-action-reward-state-action) — bu on-policy mustahkamlangan o‘qitish algoritmi bo‘lib, agent o‘z joriy strategiyasiga asoslanib, holat-harakat qiymat funksiyasini o‘rganadi. sarsa algoritmi agentni eksploratsiya va ekspluatatsiya (o‘rganish va foydalanish) muvozanatini saqlagan holda strategiyani yangilashga yo‘naltiradi. 2-rasm. sarsa algoritmi. bu yerda: • q(s,a)q(s, a)q(s,a): holat-harakat qiymati. • α\alphaα: o‘rganish sur’ati (learning rate, 0<α≤10 < \alpha \leq 10<α≤1). • γ\gammaγ: diskontlash koeffitsienti (future reward’ni pasaytirish uchun, 0≤γ<10 \leq \gamma < 10≤γ<1). • rrr: joriy mukofot. • s′,a′s', a's′,a′: keyingi holat va keyingi harakat (sarsa’ning asosiy elementi). avfzalliklari joriy eksploratsiya strategiyasi bilan ishlaydi. q-learning’ga qaraganda ba’zi holatlarda barqarorroq. kamchiliklari esa sarsa ham katta holat fazolarida qiyinchiliklarga duch keladi. optimal strategiyaga erishish uchun …
3 / 10
iya turi on-policy: joriy strategiyaga amal qiladi. off-policy: optimal strategiyani o‘rganadi. qiymat yangilash sarsa joriy strategiyaga asoslanib q(s′,a′)q(s', a')q(s′,a′)-dan foydalanadi: q(s,a)←q(s,a)+α[r+γq(s′,a′)−q(s,a )]q(s, a) \gets q(s, a) + \alpha \big[ r + \gamma q(s', a') - q(s, a) \big]q(s,a)←q(s,a)+α[r+γq(s′,a′)− q(s,a)] q-learning maksimal qiymatni tanlaydi: q(s,a)←q(s,a)+α[r+γmax⁡a′q(s′,a′)−q(s, a)]q(s, a) \gets q(s, a) + \alpha \big[ r + \gamma \max_{a'} q(s', a') - q(s, a) \big]q(s,a)←q(s,a)+α[r+γmaxa′ q(s′,a′)−q(s,a)] exploratsiy a va ekspluatatsi ya harakatlarni tanlashda agent eksploratsiya strategiyasiga asoslanadi. harakatlarni yangilashda agent mukammal strategiyaga asoslanadi. barqarorlik eksploratsiya sababli barqarorlik yuqoriroq. optimal strategiyaga tezroq yaqinlashadi. optimal strategiya ba’zan suboptimal strategiyani o‘rganadi. optimal strategiyani o‘rganadi. amaliy qo‘llanilishi o‘rganish davomida o‘zgaruvchan strategiyalarni sinovdan o‘tkazish uchun mos. optimal harakatlarni aniqlash zarur bo‘lgan holatlar uchun mos. iii. xulosa. mustahkamlangan o‘qitish algoritmlari, xususan, q-o‘rganish va sarsa, qaror qabul qilishni avtomatlashtirishda muhim ahamiyatga ega. ularning turli sohalarda qo‘llanilishi va moslashuvchanligi ushbu algoritmlarni sun’iy intellektning ajralmas qismiga aylantiradi. sarsa va q-learning algoritmlari o‘ziga …
4 / 10
rikladnaya statistika: klassifikatsiya i snijenie razmernosti, m. finansi i statistika, 1989. 4. arkadev a.g., braverman e,m obuchenie mashini klassifikatsii ob'ektov. - m.: naka, 1971, - 191c. 5. zagoruyko n.g. metodi raspoznavaniya i ix primenenie.-m. : sov.radio, 1972. -206 s. 6. dyuk v., samoylenko a., data mining: uchebniy kurs – spb: piter, 2001. – 368 s. 7. vasilev v.i raspoznayushie sistemi.- kiev: nauk.dumka, 1983.- 42ic. 8. for a. vospriyatiya raspoznavaniya obrazov.–m: «mashinostroenie», 1989. 272 - s. 9. belozerskiy l.a. osnovi postroeniya sistem raspoznavaniya obrazov. donetskiy gosudarstvenniy institut iskusstvennogo intellekta. uchebnoe posobie. chast 1. 1997. 177 –s. 10. patrik e. osnovi teorii raspoznavaniya obrazov: perevod s ang. /pod red. b.r.levina.- m.: sov.radio, 1980. - 408c.
5 / 10
mustahkamlangan o'qitish algoritmlari - Page 5

Ko'proq o'qimoqchimisiz?

Barcha 10 sahifani Telegram orqali bepul yuklab oling.

To'liq faylni yuklab olish

"mustahkamlangan o'qitish algoritmlari" haqida

o’zbekiston respublikasi raqamli texnologiyalar vazirligi muhammad al-xorazmiy nomidagi toshkent axborot texnologiyalari universiteti samarqand filiali kompyuter injiniringi fakulteti sun’iy intellekt asoslari anidan mustaqil ish -3 mavzu: mustahkamlangan o‘qitish algoritmlari bajardi: ki 23-02 guruh ortiqboyev.d qabul qildi: axrorov.m.sh samarqand – 2024 mundarija: i. kirish. ii. asosiy qism. 2.1 q-o‘rganish (q-learning) algoritmi 2.2 sarsa algoritmi 2.3 q-o‘rganish va sarsa algoritmlarining taqqoslanishi iii. xulosa. iv. foydalangan adabiyotlar. i. kirish. zamonaviy sun’iy intellekt texnologiyalaridan biri bo‘lgan mustahkamlangan o‘qitish (reinforcement learning) algoritmlari tizimlarni o‘zaro bog‘langan muhitlarda qaror qabul qilishni o‘rgatish uchun ishlatiladi. ushbu maqolada mustahka...

Bu fayl PDF formatida 10 sahifadan iborat (466,1 KB). "mustahkamlangan o'qitish algoritmlari"ni yuklab olish uchun chap tomondagi Telegram tugmasini bosing.

Teglar: mustahkamlangan o'qitish algori… PDF 10 sahifa Bepul yuklash Telegram