matnlarni normallashtirish va masofalarni minimal o'zgartirish

PPTX 10 стр. 718,4 КБ Бесплатная загрузка

Предварительный просмотр (5 стр.)

Прокрутите вниз 👇
1 / 10
powerpoint presentation matnlarni normallashtirish va masofalarni minimal õzgartirish farangiz shodiyarova 1. matn normalizatsiyasi 2. minimal masofa o'zgarishi 3. amaldagi usullar va algoritmlar reja: masofa metrikasi tanlash 3 grammali modellardan foydalanib, o'zbek tilida 5000 ta so'zdan iborat korpusda so'zlar o'rtasidagi semantik o'xshashlikni aniqlashda kosinus masofasi yaxshi natijalar beradi, bu esa andijon viloyatida qidiruv tizimlarini takomillashtirishda qo'llanilishi mumkin. matn normalizatsiyasi uchun optimal masofa metrikasini tanlashda, ma'lumotlar to'plamining o'lchami (masalan, 10 000 ta tweet) va istalgan aniqlik darajasi (masalan, 95%) muhim omillar bo'lib, samarqanddagi tabiiy tilni qayta ishlash vazifalarida bu muhim hisoblanadi. masofa metrikalarini tanlashda, masalan, levenshtein masofasi (tahrir masofasi) kabi algoritmlar 2 ta matn o'rtasidagi farqni 1-3 ta harf o'zgarishi bilan aniqlaydi, bu esa toshkent shahridagi matn normalizatsiyasi loyihalarida samarali bo'lishi mumkin. algoritmlar va modellarning taqqoslashi 2023-yilda o'zbekiston va rossiya olimlari tomonidan o'tkazilgan taqqoslash natijalariga ko'ra, levenshtein masofasi algoritmi 3-gramma modeliga nisbatan matn normalizatsiyasi uchun 15% tezroq ishladi. tokio universiteti tadqiqotchilari tomonidan …
2 / 10
giga bog'liq. matn normalizatsiyasi, 20 dan ortiq turli tillarda, jumladan, o'zbek, rus va ingliz tillarida qo'llaniladigan, matnlarni bir xil standartga keltirish jarayonini o'z ichiga oladi va bu google kabi yirik kompaniyalar uchun 100 millionlab ma'lumotlarni qayta ishlashda muhim ahamiyat kasb etadi. matn normalizatsiyasi jarayoni, 10-15 % gacha bo'lgan xatolarni kamaytirib, ma'lumotlar bazasining izchilligini ta'minlashda muhim rol o'ynaydi va natijada, samarqanddagi kutubxonada saqlanayotgan 1 million sahifali kitoblarni tahlil qilishni osonlashtiradi. standartlashtirish usullari ўзбекистон миллий университетида ўтказилган тажрибаларда, матнларни стандартлаштиришда 30% гача хатолик камайгани ва 95% гача аниқликка эришилганлиги қайд этилган. бу ишда байрон алгоритми ва ўқув маълумотлар базасидан фойдаланилган. самарқанд шаҳридаги маълумотлар базасига асосланган янги стандартлаштириш модели, турли хилдаги шева ва диалектларга эга бўлган 5000 дан ортиқ матнни таҳлил қилиш орқали яратилган бўлиб, минимал ўзгаришлар билан матнларни стандартлаштира олади. тошкентдаги 10 тадан ортиқ тадқиқот марказлари ўзбек тили матнларини стандартлаштириш учун 2023 йилдан бери янги алгоритмларни ишлаб чиқмоқда, бунда фонологik ва морфологik …
3 / 10
ijalarga erishishga yordam beradi. tozalash va filtrlash texnikalari тошкент шаҳридаги маълумотлар базасидаги 5000 тадан зиёд ҳужжатдаги матнларни тозалаш вақтини 2 бараварга қисқартириш учун янгича филтрлаш усули татбиқ этилди. маълумотларни тозалашда, 30% дан ортиқ шовқинни йўқотиш мақсадида, байналминал стандартларга мос келувчи, ностандарт белгиларни аниқлаш ва ўчириш алгоритми ишлаб чиқилди. тозалаш ва филтрлаш техникаларида, масалан, 1000 тадан ортиқ сўз билан тўлдирилган ўзбекистон матнларидаги нотегишли белгиларни олиб ташлаш учун, турли алгоритмлардан фойдаланилади. minimal masofa o'zgarishiga kirish minimal masofa o'zgarishi texnikasi, andijondagi 10 ta turli xil yozuv uslubidagi matnlarni taqqoslashda, o'rtacha 0.75 minimal masofa koeffitsiyentini ta'minlaydi. minimal masofa o'zgarishi (mmo) algoritmlari matnni normalizatsiya qilishda, masalan, toshkentdagi 1000 ta hujjat to'plamida, 2-3 ta harf farqi bilan o'xshash so'zlarni aniqlashda samarali qo'llaniladi. mmo yondashuvi, 5000 ta so'zdan iborat lug'at bilan ishlatilganda, samarqanddagi tarixiy matnlarni tahlil qilishda, o'xshashlik darajasini 85% ga yetkazish imkonini beradi. e'tiboringiz uchun rahmat @taqdimot_robot image2.png image3.png image4.png image5.png
4 / 10
matnlarni normallashtirish va masofalarni minimal o'zgartirish - Page 4
5 / 10
matnlarni normallashtirish va masofalarni minimal o'zgartirish - Page 5

Хотите читать дальше?

Скачайте все 10 страниц бесплатно через Telegram.

Скачать полный файл

О "matnlarni normallashtirish va masofalarni minimal o'zgartirish"

powerpoint presentation matnlarni normallashtirish va masofalarni minimal õzgartirish farangiz shodiyarova 1. matn normalizatsiyasi 2. minimal masofa o'zgarishi 3. amaldagi usullar va algoritmlar reja: masofa metrikasi tanlash 3 grammali modellardan foydalanib, o'zbek tilida 5000 ta so'zdan iborat korpusda so'zlar o'rtasidagi semantik o'xshashlikni aniqlashda kosinus masofasi yaxshi natijalar beradi, bu esa andijon viloyatida qidiruv tizimlarini takomillashtirishda qo'llanilishi mumkin. matn normalizatsiyasi uchun optimal masofa metrikasini tanlashda, ma'lumotlar to'plamining o'lchami (masalan, 10 000 ta tweet) va istalgan aniqlik darajasi (masalan, 95%) muhim omillar bo'lib, samarqanddagi tabiiy tilni qayta ishlash vazifalarida bu muhim hisoblanadi. masofa metrikalarini tanlashda, masalan...

Этот файл содержит 10 стр. в формате PPTX (718,4 КБ). Чтобы скачать "matnlarni normallashtirish va masofalarni minimal o'zgartirish", нажмите кнопку Telegram слева.

Теги: matnlarni normallashtirish va m… PPTX 10 стр. Бесплатная загрузка Telegram