matn generatsiya algoritmi

PDF 12 sahifa 627,9 KB Bepul yuklash

Sahifa ko'rinishi (5 sahifa)

Pastga aylantiring 👇
1 / 12
alisher navoiy nomidagi toshkent davlat o‘zbek tili va adabiyoti universiteti “kompyuter lingvistikasi: muammolar, yechim, istiqbollar” xalqaro ilmiy-amaliy konferensiya vol. 1 №. 01 (2022) http://compling.navoiy-uni.uz/ 60 n-gramm til modellari vositasida o`zbek tilida matn generatsiya qilish elov botir boltayevich, elov@navoiy-uni.uz alisher navoiy nomidagi toshkent davlat o‘zbek tili va adabiyoti kompyuter lingvistikasi va raqamli texnologiyalar kafedrasi mudiri texnika fanlari bo‘yicha phd annotatsiya. ushbu maqola tabiiy tilni qayta ishlash (nlp) vositalari (n- grammalar) orqali o‘zbek tilida matnlarni generatsiya qilish usullari keltiriladi. matn generatsiya qiluvchi dasturiy ta’minonning xususiyatlari, python imkoniyatlari, n- gramm model, unigram, bigram, trigram va matn korpusi yordamida matn generatsiya qilish algoritmi yoritilgan. kalit so‘zlar: tabiiy tilni qayta ishlash, nlp, python, matn korpusi, n- gramm model, unigram, bigram, trigram. annotation. this article describes the methods of generating texts in uzbek using natural language processing (nlp) tools (n-grams). features of text generating software, python capabilities, n-gram model, unigram, bigram, trigram and text generation algorithm …
2 / 12
va qidirish ehtiyojga aylanib bormoqda. ushbu maqolada nlp sohasidagi ba`zi asosiy vositalarni ishlab chiqish uchun n-gramm yondashuvini muhokama qilamiz. ushbu yondashuv alisher navoiy nomidagi toshkent davlat o‘zbek tili va adabiyoti universiteti “kompyuter lingvistikasi: muammolar, yechim, istiqbollar” xalqaro ilmiy-amaliy konferensiya vol. 1 №. 01 (2022) http://compling.navoiy-uni.uz/ 61 statistik va sun`iy intellekt vositalariga asoslangan. mashinalar vositasida oddiy statistik va ehtimollik usullaridan foydalangan holda yangi matn yaratish sun`iy intellektning tabiiy tilni qayta ishlash (nlp) sohasidagi ilmiy izlanishlarning asosiy yo`nalishlaridan biri hisoblanadi. ushbu maqolada matn yaratish modelini yaratishning juda oddiy va intuitiv usullari ko`rib chiqiladi. bugungi kunda jahonda bir qator olimlar nlp vositalari orqali matnlarni avtomatik generatsiya qilish ustida ilmiy izlanishlar olib bormoqda. jumladan, mehmet ali kutlugun va yahya shirin tomonidan turk tilidagi matnlarni generatsiya qilish tizimlarini yaratish uchun katta hajmdagi ma`lumotlardagi n- grammalardan foydalangan holda ma`noli yangi turkiy matnlarni yaratish usullari taklif qilingan [1]. bunda yangi matnni generatsiya qilishda trigramma modelidan foydalanilgan va …
3 / 12
arafrazalarni generatsia qilish masalalari ko`rib chiqilgan [3]. k.g. srinivasa va b.n.shree devi tomonidan sun`iy intellekt metodlaridan hisoblangan gpuga asoslangan n-gramm satrlarni moslashtirish algoritmi va katta hajmdagi hujjatlarda satrlarni izlash uchun ballar jadvali yondashuviga asoslangan [4]. katta hajmdagi hujjatlarda satrlarni izlash va uning gpuni amalga oshirish uchun n-gramm modeliga optimallashtirilgan yangi yondashuvni taklif qilingan. algoritm gpgpu-lardan ko'plab hujjatlardagi satrlarni qidirish uchun n-gramm belgilar darajasidagi parallel skorlar jadvali yondashuvi va cuda api yordamida qidirish uchun foydalanadi. e.mulyani tominidan polinomial bayes metodidan foydalangan holda, n-grammlar orqali martndagi xususiyatlarni ajratib olish va tanlash usullari tahlil qililgan [5]. dasturiy ta`minot hujjatlarini ishlab chiqish ko`pincha nusxa ko`chirishni o`z ichiga oladi, bu esa juda ko`p takroriy matnlarni hosil qilinishiga olib keladi. bunday dublikatlar, ayniqsa, dasturiy ta`minot va uning hujjatlarining ishlash muddati uzoq bo`lgan taqdirda, hujjatlarni saqlashni qiyin va qimmat qiladi. vaziyat ikki alisher navoiy nomidagi toshkent davlat o‘zbek tili va adabiyoti universiteti “kompyuter lingvistikasi: muammolar, yechim, istiqbollar” …
4 / 12
da yangi matnni generatsiya qilish masalasini ko`rib chiqamiz. barchaga ma`lumki, tabiiy tillarda matndagi so`zlarning yozilish (qo`llanish) tartibi muhim ahamiyatga ega. ushu xususiyat gapdagi ba`zi no`malum so`zlarni tushunmasdan ham bizga gapning kontekstini tushunishga imkon beradi. quyidagi misolni ko`rib chiqamiz: "anvar gargula tomonidan chiqarilgan dahshatli shovqin tufayli qo`rqib ketdi." oldingi kontekstsiz biz "gargula" nima ekanligini bilmaymiz. gap tarkibidagi so`zlarning bunday bog`liqligi bizga tushunmayotgan so`zning tabiati haqida ba`zi ma`lumotlar berishi mumkin. ba`zi hollarda biz butun kontekstni bilishimiz shart emas. yuqoridagi misolda, biz intuitiv darajada faqat "tashqari shovqin" ga qarab, keyingi so`z nutqning boshqa qismi emas, balki ot so`z turkumiga mansub so`z bo`lishi lozimligini aytishimiz mumkin. yuqoridagi mulohazalardan n-grammlar deb nomlanuvchi berilgan gapni n ta elementning ketma-ketligidan iborat qismlarga ajratish qoyasi kelib chiqadi. asosiy g`oya shundan iboratki, har qanday matn berilgan bo`lsa, biz unigramlar (1 gramm), bigramlar (2 gramm), trigramlar (3 gramm) va boshqalar ro`yxatiga ajratishimiz mumkin [8-10]. misol uchun: matn: "men kitobni o`qidim" …
5 / 12
sosiy g`oyasi n-grammning oxirgi so`zini (xn) bir xil n-grammda (xn-1, xn-2, … x1) hosil qilingan boshqa so`zlar ketma ketligidan hosil qilish mumkin. shunday qilib, modelning asosiy soddalashtirilganligi shundan iboratki, keyingi so`zni shakllantirish uchun butun gapni tahlil qilish shart emas. faqat n-1 tokenlardan iborat ketma-ketlikni qidirishimiz lozim [11]: p(x(t+1)| x(t),…, x(1))=p(x(t+1)| x(t),…, x(t-n+2)) p(x𝑡+1| x𝑡, … , x𝑡−𝑛+2) = p(x𝑡+1, x𝑡, … , x𝑡−𝑛+2) p(x𝑡, … , x𝑡−𝑛+2) masalan: trigram modelidan foydalanish (n=3) matn: “mary was scared because of ___” biz trigramma modelidan foydalanganimiz uchun jumlaning boshini tushiramiz: "mary was scared" va "because of" dan mumkin bo`lgan davomini shakllantirishimiz lozim. ma`lumotlar bazasidan biz quyidagi mumkin bo`lgan davomlar mavjudligini bilamiz deb taxmin qilamiz: "me", "noise". shunday qilib, biz hisoblashimiz kerak: p(noise | because of) va p(me | because of) ehtimollar hisoblab chiqilgandan so`ng, barcha nomzodlar uchun yakuniy so`zni tanlashning bir necha yo`li mavjud. buning usullaridan biri eng yuqori shartli ehtimolga ega bo`lgan …

Ko'proq o'qimoqchimisiz?

Barcha 12 sahifani Telegram orqali bepul yuklab oling.

To'liq faylni yuklab olish

"matn generatsiya algoritmi" haqida

alisher navoiy nomidagi toshkent davlat o‘zbek tili va adabiyoti universiteti “kompyuter lingvistikasi: muammolar, yechim, istiqbollar” xalqaro ilmiy-amaliy konferensiya vol. 1 №. 01 (2022) http://compling.navoiy-uni.uz/ 60 n-gramm til modellari vositasida o`zbek tilida matn generatsiya qilish elov botir boltayevich, elov@navoiy-uni.uz alisher navoiy nomidagi toshkent davlat o‘zbek tili va adabiyoti kompyuter lingvistikasi va raqamli texnologiyalar kafedrasi mudiri texnika fanlari bo‘yicha phd annotatsiya. ushbu maqola tabiiy tilni qayta ishlash (nlp) vositalari (n- grammalar) orqali o‘zbek tilida matnlarni generatsiya qilish usullari keltiriladi. matn generatsiya qiluvchi dasturiy ta’minonning xususiyatlari, python imkoniyatlari, n- gramm model, unigram, bigram, trigram va matn korpusi yo...

Bu fayl PDF formatida 12 sahifadan iborat (627,9 KB). "matn generatsiya algoritmi"ni yuklab olish uchun chap tomondagi Telegram tugmasini bosing.

Teglar: matn generatsiya algoritmi PDF 12 sahifa Bepul yuklash Telegram