tf-idf va multinomial naive bayes algoritmlarining o‘zbek tilida omonim so‘zlarni ma’nosi aniqlash

DOCX 27 pages 3.1 MB Free download

Page preview (5 pages)

Scroll down 👇
1 / 27
kurs ishi kurs ishi mavzu: tf-idf va multinomial naive bayes algoritmlarining o‘zbek tilida omonim so‘zlarni ma’nosi aniqlash mundarija kirish 3 tf-idf algoritmi asoslari 3 multinomial naive bayes algoritmi 6 dasturiy struktura va pipeline tizimi 8 jarayon sxemasi - tahlili 13 blok sxema - tahlili 16 psevdokod 20 psevdo kod tahlili 22 koddi colabga ko’chirilga varianti 24 24 aniqlilik darajasini ko’rsatuvchi sxema 26 xulosa 27 foydalanilgan adabiyotlar 27 kirish bugungi kunda insonlar tomonidan har kuni yozilayotgan axborotlarning katta qismi matn shaklida saqlanadi: yangiliklar, ijtimoiy tarmoqlar, bloglar, sharhlar va h.k. bunday matnlar hajmi juda katta bo‘lgani sababli, ularni avtomatik tarzda tahlil qilishga ehtiyoj ortmoqda. shu maqsadda tabiiy tilni qayta ishlash (natural language processing — nlp) deb nomlangan yo‘nalish paydo bo‘lgan bo‘lib, u matn bilan ishlaydigan mashina o‘rganish usullarini o‘z ichiga oladi. matn ustida ishlov berish jarayonida so‘zlarning muhimligini aniqlash, ular asosida matnni sinflarga ajratish (klassifikatsiya) yoki qidirish tizimlari uchun samarali ko‘rsatkichlar yaratish …
2 / 27
tf-idf — matndagi har bir so‘zning umumiy matnlar to‘plamidagi (korpusdagi) nisbiy ahamiyatini hisoblovchi usuldir. idf (inverse document frequency) — so‘zning butun hujjatlar to‘plamida qanchalik noyob ekanini bildiradi: tf-idf = tf × idf — bu ko‘paytma orqali umumiy baho olinadi. nima uchun kerak? aksariyat matnlarda juda ko‘p “va”, “bu”, “uchun” kabi so‘zlar ishlatiladi, lekin ular matn mazmunini ifodalamaydi. tf-idf yordamida aynan muhim, ya’ni matnga xos bo‘lgan so‘zlarni ajratib olish mumkin. matnni vektorga aylantiradi (har bir so‘z bir son bilan ifodalanadi), so‘zlar og‘irligini hisoblaydi, matnlar o‘rtasidagi o‘xshashlikni o‘lchashga yordam beradi. real misol bilan tushuntirish faraz qilaylik, quyidagi ikki matn mavjud: “maktab o‘quvchilari kitob o‘qiydi.” “kitob do‘konida yangi kitoblar bor.” umumiy so‘zlar: maktab, o‘quvchilar, kitob, do‘kon, yangi, bor, o‘qiydi matnlar soni: n = 2 so‘z "kitob" har ikkala matnda ham mavjud: df("kitob") = 2 bu so‘z matnlar orasida ko‘p uchragani sababli tf-idf bahosi past bo‘ladi. tf-idf modelining ishlash bosqichlari tf-idf algoritmi orqali matnlarni …
3 / 27
: har bir so‘z uchun tf va idf ko‘paytirilib, umumiy baho aniqlanadi. natijada har bir matn vektor shaklida ifodalanadi, bu esa mashina o‘rganish modellari uchun qulaydir. tf-idf yordamida matnlar orasidagi o‘xshashlikni aniqlash tf-idf qiymatlari yordamida turli matnlar orasidagi o‘xshashlikni hisoblash mumkin. masalan, ikkita matn bir xil mavzudami yoki yo‘qmi, buni tf-idf vektorlarining o‘zaro burchagini (kosinus o‘xshashligi) aniqlab bilish mumkin. bu ayniqsa qidiruv tizimlari, plagiat aniqlash, yangiliklar guruhlash kabi sohalarda foydali. tf-idf modelining afzalliklari va kamchiliklari afzalliklari: sodda va tez ishlaydi. amalda samarali natija beradi. katta matnlar ustida ishlay oladi. matndagi yadro so‘zlarni aniqlaydi. kamchiliklari: so‘zlar orasidagi mantiqiy bog‘liqlikni hisobga olmaydi. so‘zlar shakliy o‘xshash bo‘lsa ham, ular alohida ko‘riladi (masalan: "bor", "bordi", "boradi"). o‘zbek tilidagi morfologik o‘zgarishlarga moslashish qiyin. har bir matn uchun alohida vektorlar hajmi katta bo‘ladi (yuzlab yoki minglab so‘zlar). o‘zbek tilida tf-idf qo‘llash muammolari o‘zbek tili boy morfologiyaga ega til bo‘lib, bir so‘zning turli shakllari mavjud bo‘ladi. masalan: …
4 / 27
ustaqil tarzda tasnifga ta’sir qiladi, degan taxminga asoslanadi. naive bayes modeli, ayniqsa, matn klassifikatsiyasi, spam aniqlash, yangiliklar turkumlash va boshqa nlp masalalarida muvaffaqiyatli qo‘llaniladi. multinomial naive bayes turi naive bayes modelining bir nechta varianti mavjud. matnlar ustida ishlashda multinomial naive bayes eng mos keladigan tur hisoblanadi. chunki u matndagi so‘zlarning chastotasi (necha marta uchrashi) asosida ishlaydi. multinomial degani — bitta sinfga tegishli bo‘lish ehtimoli so‘zlar sonining tarqalishiga asoslanadi. ishlash prinsipi model quyidagicha ishlaydi: har bir sinf uchun umumiy ehtimol hisoblanadi: har bir so‘z uchun u sinfda necha marta uchragani aniqlanadi: har bir yangi matn uchun quyidagi ko‘paytma hisoblanadi: bu yerda: ckc_kck​ — k-chi sinf (masalan, "sport", "siyosat", "adabiyot"); wiw_iwi​ — matndagi i-chi so‘z; — i-chi so‘zning d matndagi chastotasi; — so‘zning c_k sinfiga tegishli matnlarda uchrash ehtimoli. silliqlashtirish (laplace silliqlashtirish) ba’zan biror sinfda biror so‘z umuman uchramagan bo‘lishi mumkin. bunday hollarda ehtimol nolga teng bo‘lib, butun model natijasi buziladi. shuning …
5 / 27
a aniqlikka salbiy ta’sir qiladi. multinomial naive bayes algoritmining qo‘llanish sohalari ushbu model quyidagi sohalarda keng qo‘llaniladi: spam filtrlash: matn spam ekanligini aniqlash. yangiliklar klassifikatsiyasi: matn sport, siyosat, iqtisod va boshqa toifalarga tegishli ekanini aniqlash. ovozli tizimlarda komanda tanish: nutqni toza matnga aylantirishda. sentiment tahlili: foydalanuvchi fikrlarining ijobiy yoki salbiyligini aniqlash. o‘zbek tilida model ishlatishda e’tiborli jihatlar - o‘zbek tili morfologik jihatdan boy til hisoblanadi. har bir so‘z turli ko‘rinishlarda (qo‘shimchalar bilan) yozilishi mumkin. naive bayes algoritmi har bir so‘zni alohida birlik deb ko‘rganligi sababli: “bor”, “bordim”, “boraman”, “borgan” — hammasi turli birlik sifatida qaraladi. bu esa statistik modelni chalkashtiradi. shuning uchun matn tayyorlash (preprocessing) bosqichida stemming va lemmatizatsiya alohida muhim hisoblanadi. dasturiy struktura va pipeline tizimi pipeline nima va nega kerak? pipeline (inglizcha “quvur tizimi”) — bu mashina o‘rganish (machine learning) sohasida matnni tahlil qilish bosqichlarini ketma-ket ulash orqali avtomatlashtirish usulidir. dastur yozishda har bir bosqich — alohida modul …

Want to read more?

Download all 27 pages for free via Telegram.

Download full file

About "tf-idf va multinomial naive bayes algoritmlarining o‘zbek tilida omonim so‘zlarni ma’nosi aniqlash"

kurs ishi kurs ishi mavzu: tf-idf va multinomial naive bayes algoritmlarining o‘zbek tilida omonim so‘zlarni ma’nosi aniqlash mundarija kirish 3 tf-idf algoritmi asoslari 3 multinomial naive bayes algoritmi 6 dasturiy struktura va pipeline tizimi 8 jarayon sxemasi - tahlili 13 blok sxema - tahlili 16 psevdokod 20 psevdo kod tahlili 22 koddi colabga ko’chirilga varianti 24 24 aniqlilik darajasini ko’rsatuvchi sxema 26 xulosa 27 foydalanilgan adabiyotlar 27 kirish bugungi kunda insonlar tomonidan har kuni yozilayotgan axborotlarning katta qismi matn shaklida saqlanadi: yangiliklar, ijtimoiy tarmoqlar, bloglar, sharhlar va h.k. bunday matnlar hajmi juda katta bo‘lgani sababli, ularni avtomatik tarzda tahlil qilishga ehtiyoj ortmoqda. shu maqsadda tabiiy tilni qayta ishlash (natural language p...

This file contains 27 pages in DOCX format (3.1 MB). To download "tf-idf va multinomial naive bayes algoritmlarining o‘zbek tilida omonim so‘zlarni ma’nosi aniqlash", click the Telegram button on the left.

Tags: tf-idf va multinomial naive bay… DOCX 27 pages Free download Telegram