omonimlarni aniqlashda random forest algoritmidan foydalanish

DOCX 19 pages 962.0 KB Free download

Page preview (5 pages)

Scroll down 👇
1 / 19
kurs ishi mavzu: omonimlarni aniqlashda random forest algoritmidan foydalanish mundarija: kirish 3 i.random forest algoritmi haqida nazariy ma’lumot 4 ii.random forest algoritmining nlp (natural tilni qayta ishlash) sohasidagi qo‘llanilishi 5 iii. omonimlar va ularning nlp’dagi ahamiyati 6 iv. omonimlar ustida random forest asosida model yaratish 9 v.psevdokod 11 vi.blok-sxema 12 vii.dasturning ishlash jarayoni 13 vii.model aniqligi va tahlili 14 xulosa 15 ilova 17 foydalanilgan adabiyotlar ro‘yxati 19 kirish zamonaviy axborot texnologiyalarining jadal rivojlanishi natijasida tilshunoslik sohasida ham sun’iy intellekt, mashinaviy o‘rganish va tabiiy tilni qayta ishlash (nlp – natural language processing) metodlari keng qo‘llanilmoqda. til tizimidagi murakkabliklardan biri bu — omonim so‘zlar bo‘lib, ular bir xil shaklda bo‘lsa-da, turli ma’no va vazifalarni ifodalaydi. shu sababli, kompyuterga matndagi omonim so‘zning aniq ma’nosini anglatish, tahlil qilish va mos natijani chiqarish nihoyatda muhim masalalardan hisoblanadi. ushbu kurs ishida random forest algoritmi yordamida omonim so‘zlarni aniqlash va ularning to‘g‘ri ma’nosini ajratib berish modelini yaratish …
2 / 19
hdan iborat.[endnoteref:1] [1: ] james, g., witten, d., hastie, t., tibshirani, r. (2013). an introduction to statistical learning. springer. i.random forest algoritmi haqida nazariy ma’lumot 1. random forest algoritmining mohiyati random forest — bu ansambl o‘rganish (ensemble learning) usuliga asoslangan mashinaviy o‘rganish algoritmidir. u bir nechta qarorlar daraxti (decision trees) ni yaratib, ularning har birining natijasini birlashtiradi va umumiy qaror chiqaradi. bu usul o‘rganishda yuqori aniqlikni ta’minlaydi va overfitting muammosini kamaytiradi. random forest nomi bejiz tanlanmagan — bu o‘rmon (forest) daraxtlardan tashkil topgan bo‘lib, har bir daraxt alohida model hisoblanadi va o‘z “ovozini” beradi. yakuniy qaror esa eng ko‘p ovoz to‘plagan sinfga qarab aniqlanadi (majority voting). 2. ishlash prinsipi random forest quyidagi bosqichlarda ishlaydi: 1. ma’lumotlar to‘plamidan tasodifiy holda (bootstrap) kichik namunalar olinadi. 2. har bir namunaga asoslangan holda beshta va undan ortiq qaror daraxtlari quriladi. 3. har bir daraxt o‘zining mustaqil qarorini chiqaradi. 4. daraxtlar natijasi birlashtirilib, eng ko‘p …
3 / 19
hxislash, tahlillarni avtomatlashtirish. • moliya: mijozlarni risk guruhlariga ajratish, firibgarlikni aniqlash. • marketing: xaridor xatti-harakatlarini tahlil qilish. • genetika: dnk tahlili, genetik bog‘liqlikni aniqlash. • kiberxavfsizlik: hujum turlarini ajratish, xavfli tizim harakatlarini aniqlash. iii. omonimlar va ularning nlp’dagi ahamiyati 1. omonimlar nima? omonimlar — yozilishi va talaffuzi bir xil, lekin ma’nosi turlicha bo‘lgan so‘zlardir. masalan: • ol – “mevani ol” yoki “ol degan buyrug‘i” • ko‘z – “ko‘z bilan ko‘rish” yoki “ignaning ko‘zi” • yurak – “yurak a’zosi” yoki “yurakli inson” (jasurlik ma’nosida) omonimlar tilning boyligi va ko‘p ma’noliligi sifatida qadrlansa-da, kompyuterlar uchun bu katta muammo tug‘diradi, ayniqsa matnni avtomatik tahlil qilish jarayonlarida. 2. nlp (natural language processing) kontekstida muammo nlp — kompyuterlarga tabiiy tilni tushunishni, qayta ishlashni o‘rgatuvchi texnologiya hisoblanadi. omonimlar nlp tizimlari uchun quyidagi muammolarni keltirib chiqaradi: • so‘z ma’nosini noto‘g‘ri tushunish • kontekstni aniqlay olmaslik • avtomatik tarjima va matn tahlilida xatoliklar 3. omonimlar bilan ishlashda qo‘llaniladigan …
4 / 19
ri random forest — ansambl o‘rganish usullariga asoslangan algoritm bo‘lib, ko‘p sonli qaror daraxtlari yordamida bashorat qiladi. u quyidagi asosiy parametrlarga ega: ➤ n_estimators • bu parametr o‘rmondagi daraxtlar sonini bildiradi. • masalan: n_estimators=100 — 100 ta qaror daraxtidan tashkil topgan o‘rmon. • ta’siri: daraxtlar soni ortishi bilan modelning aniqligi oshadi, lekin kompyuter resurslari ko‘proq talab qilinadi. ➤ max_depth • har bir daraxtning maksimal chuqurligi. • agar none bo‘lsa, tugunlar faqatgina min_samples_split sharti bajarilmaguncha bo‘linadi. • kichik qiymatlar: underfitting (kam o‘rganish), katta qiymatlar: overfitting (ortiqcha o‘rganish). ➤ criterion • bo‘linishni qanday baholash kerakligini belgilaydi. • qiymatlar: gini (gini impurity), entropy (axborot entropiyasi). • ikkisi ham bo‘linish sifati baholanadigan mezonlardir. ➤ min_samples_split • tugunni keyingi bo‘linish uchun zarur bo‘lgan eng kam namunalar soni. • katta qiymatlar modelni soddalashtiradi, kichik qiymatlar esa chuqur daraxtlar yaratishga olib keladi. ➤ random_state • model natijasining takrorlanishini ta’minlash uchun ishlatiladi. • har safar bir xil random_state …
5 / 19
mizda virtual muhit borligiga ishonch hosil qilganimizdan so‘ng, yangi projectni ochamiz. v.psevdokod algorithm 1: procedure for computing aspect sentiment input: dataset d [omonim, gap, ma’no] input: exsel file f output: detectedmeaning 1 start; 2 d ← read_excel(f); 3 d_cleaned ← preprocess(d) // tozalash, stemming 4 x ← vectorize_text(d_cleaned['gap']) 5 y ← d_cleaned['ma’no'] 6 model ← train_random_forest(x, y) 7 display "gap kiriting:" 8 s ← get_input_from_user() // gapni foydalanuvchidan olish 9 s_cleaned ← preprocess(s) 11 12 if s_cleaned in d_cleaned['gap'] then 13 detectedmeaning ← model.predict(s_cleaned) 14 return detectedmeaning // → natijani qaytarish 15 else 16 detectedmeaning ← model.predict(s_cleaned) 17 if detectedmeaning is not empty then 18 append_to_excel(f, s, detectedmeaning) 19 return detectedmeaning // → natijani qaytarish 20 else 21 return "ma’no aniqlanmadi" // → default holat 22 end if 23 end if 24 end vi.blok-sxema matn bazaga qo’shilsin ma’no aniqlandi ma’lumotlarni tozalash fayldan foydalanish modelni o‘qitish gapni tozalash gapni kiriting exsel …

Want to read more?

Download all 19 pages for free via Telegram.

Download full file

About "omonimlarni aniqlashda random forest algoritmidan foydalanish"

kurs ishi mavzu: omonimlarni aniqlashda random forest algoritmidan foydalanish mundarija: kirish 3 i.random forest algoritmi haqida nazariy ma’lumot 4 ii.random forest algoritmining nlp (natural tilni qayta ishlash) sohasidagi qo‘llanilishi 5 iii. omonimlar va ularning nlp’dagi ahamiyati 6 iv. omonimlar ustida random forest asosida model yaratish 9 v.psevdokod 11 vi.blok-sxema 12 vii.dasturning ishlash jarayoni 13 vii.model aniqligi va tahlili 14 xulosa 15 ilova 17 foydalanilgan adabiyotlar ro‘yxati 19 kirish zamonaviy axborot texnologiyalarining jadal rivojlanishi natijasida tilshunoslik sohasida ham sun’iy intellekt, mashinaviy o‘rganish va tabiiy tilni qayta ishlash (nlp – natural language processing) metodlari keng qo‘llanilmoqda. til tizimidagi murakkabliklardan biri bu — omonim so‘zl...

This file contains 19 pages in DOCX format (962.0 KB). To download "omonimlarni aniqlashda random forest algoritmidan foydalanish", click the Telegram button on the left.

Tags: omonimlarni aniqlashda random f… DOCX 19 pages Free download Telegram