hujjatlarni indekslashda vektor mashinalaridan foydalanish

PPTX 17 стр. 6,5 МБ Бесплатная загрузка

Предварительный просмотр (5 стр.)

Прокрутите вниз 👇
1 / 17
tech newsletter hujjatlarni indekslashda vektor mashinalaridan foydalanish. ilmiy maqolani nashr etish usullaridan biri uni konferentsiyada taqdim etishdir. konferentsiyada taqdim etilishidan oldin ro'yxatdan o'tgan ilmiy maqola toifalarga bo'linishi kerak. roʻyxatga olingan ilmiy ishlar juda koʻp boʻlganligi sababli, ilmiy maqolalar mavzusini avtomatik ravishda aniqlab beradigan va ularni tan olingan mavzular boʻyicha tasniflay oladigan tizimni oʻrnatish zarur. hujjatlarni toifalariga ko'ra tartibga solishning usullaridan biri bu tasniflashdir. ushbu ishda qo'llab-quvvatlash vektor mashinasi algoritmi hujjatlarni kompyuter fanining 5 toifasiga tasniflash usuli sifatida ishlatiladi. tizim testi ma'lumotlar namunasi sifatida 150 ta hujjat va ma'lumotlar testi sifatida 50 ta hujjatni olish orqali amalga oshiriladi. ushbu tadqiqot ilmiy hujjatlarni tasniflash tizimini yaratdi va foydalanilgan usul hujjatlarni 90% aniqlik bilan tasniflash imkoniyatini ko'rsatdi. guruhlash tasniflash usuli bilan amalga oshiriladi. ushbu tadqiqotda hujjatlarni tasniflash hujjatlar konspekti orqali hujjatlar toifasini tanib olish orqali amalga oshiriladi. hujjatning mavhum qismi bir necha dastlabki ishlov berish bosqichlaridan o'tadi. keyinchalik, jarayonning natijasi so'zlarni tortish bosqichiga …
2 / 17
lgan. natija neyron tarmog'isiz tasnifga qaraganda yaxshiroq. shu bilan birga, boshqa tadqiqotlar fokuslangan brauzerni yaratish uchun naive bayes-dan foydalanadi. yana bir tadqiqot, twitter kiritishni bir necha guruhlarga ajratish uchun naive bayesdan foydalanadi rusdi afandi hisobot hujjatlarini hujjatlarning 30 ta oʻquv maʼlumotlari va 30 ta test maʼlumotlari bilan tasniflash uchun naive bayes algoritmidan foydalanadi. tadqiqot 86,67% aniqlikni beradi bundan tashqari, hujjatlarni tasniflash tf-idf yordamida amalga oshirildi, u tortish bosqichida o'zgartirildi. ushbu tadqiqotda bir xil atama har xil vaznga ega bo'ladi, bu atama qayerda ekanligiga bog'liq. keyin hujjatlar naive bayes algoritmi va frequency ratio accuulation method yordamida tasniflanadi. bundan tashqari, tf-idf hujjatlarni klasterlash uchun ham qo'llaniladi. winnowing - bu algoritm bo'lib, matn hujjati tarkibidagi jumlalarni k-grammgacha bo'lgan ba'zi belgilarga bo'lish va barmoq izi deb ataladigan xesh qiymatlari to'plamini ishlab chiqarish orqali o'xshashligini aniqlash uchun ishlatiladi. ushbu tadqiqotda matnli hujjatning xarakteristikasi sifatida barmoq izidan foydalaniladi, so‘ngra matnli hujjatlarni shu xususiyat asosida guruhlanadi. keyingi …
3 / 17
ma'lumotlar to'plami) meta ma'lumotlar va tarkibga asoslangan holda kiritiladi. metadata sarlavha, tadqiqotchi nomi va kalit so'zlardan iborat bo'lib, jarayon uchun referat uning mazmuni asosida kiritiladi. kirish jarayonidan so'ng, ma'lumotlar tf-idf usuli yordamida matnni oldindan qayta ishlash va tortish jarayonidan o'tadi. ushbu bosqichda har bir hujjat mavzusi asosida ilmiy maqolalarni toifalarga ajratish uchun qo'llab-quvvatlash vektor mashinasi algoritmi bilan tasniflash jarayoni qo'llaniladi. trening ham, test ham bir xil jarayonni amalga oshiradi. trening va test o'rtasidagi farq shundaki, mashg'ulotda natija svm bilan ishlov berilgandan so'ng natija qiymatlari ma'lumotlar sinovi bilan taqqoslanadigan modelga aylanadi. ilmiy maqolalarni tasniflash uchun umumiy arxitektura ma'lumotlar to'plami ushbu tadqiqot uchun foydalanilgan ma'lumotlar o'quv ma'lumotlari va test ma'lumotlaridan iborat. maʼlumotlar hisoblash va amaliy informatika boʻyicha xalqaro konferensiya (iccai) va springerlink toʻplamidan olingan .pdf hujjat formatidagi ilmiy hujjatlardir. ma'lumotlar bir nechta toifalar bo'yicha hujjatlar tasnifini ishlab chiqarish uchun qayta ishlanadi: - kompyuter grafikasi va tasvirni ko'rish - kompyuter tizimi - ma'lumotlarni …
4 / 17
oriy ko'rinmasdan ajratiladi. bu jarayonda terilgan butun son va tinish belgilari olib tashlanadi. stopword olib tashlash stopword olib tashlash ma'nosiz yoki ahamiyatsiz deb hisoblangan atama yoki so'zlarni yo'q qilishdir. to'xtatuvchi so'z matndan o'chirilishi kerak, chunki u matnni qiyinlashtirishi va matnni qazib olish jarayoni uchun ahamiyatini kamaytirishi mumkin. ingliz tilidagi stopword bog‘lovchi, bosh gap yoki ergash gapga o‘xshaydi. to'planish o'rnatish bosqichida so'z asosiy so'zga o'zgartiriladi yoki to'xtatuvchi so'zni olib tashlashdan kelgan har bir so'zdan ildiz so'zni qidirish jarayoni. so‘zning asosiy shaklini izlash so‘zdagi affiksni o‘chirish orqali amalga oshiriladi. ushbu tadqiqot porter algoritmidan foydalanib, jarayonni qo'zg'atadi. porter algoritmi ketma-ket qo'llaniladigan so'zlarni qisqartirishning besh bosqichidan iborat. har bir bosqich uchun eng uzun qo'shimchaga qo'llaniladigan har bir qoida guruhidan qoidalarni tanlash kabi qoidalarni tanlash uchun ko'plab konventsiyalar mavjud. tfidfning og'irligi term chastotasi – hujjatning teskari chastotasi (tfidf) hujjat so'zining qanchalik muhimligini o'lchash uchun ishlatiladigan usul. tfidf qiymati so'z hujjatda necha marta paydo bo'lishiga mutanosib …
5 / 17
ga ega. svm - bu eng katta chegara bilan giperplanni qidirish orqali ishlaydigan tasniflash usuli. giperplane - bu sinflar o'rtasida chiziq (qaror chegarasi) ma'lumotlarini taqsimlash, chegara esa har bir sinf uchun eng yaqin ma'lumotlarga ega giperplane orasidagi masofa. har bir sinf uchun giperplanega eng yaqin ma'lumotlar qo'llab-quvvatlovchi vektor deb ataladi. hujjatlarni tasniflashda svm modelini yaratish uchun oldingi jarayondagi o'quv ma'lumotlari talab qilinadi. svm modeli vektor fazoga asoslangan tasniflash modelidir. hujjatning barcha vektorlari xaritaga tushiriladi, keyin sinfni ajratuvchi funksiyani qidiradi. svm - bu vektor maydonini giperplan bilan ijobiy va salbiy sinf bo'lgan 2 qismga ajratadigan tasniflash usuli. amalga oshiriladigan barcha ikkilik tasniflash bilan: svm birinchi marta taqdim etilganda ma'lumotlarni ikki sinfga bo'lish mumkin. keyingi tadqiqotlar svm ni ishlab chiqadi, shuning uchun u ikkitadan ortiq sinflar doimiy ravishda bajarilgan ma'lumotlarni tasniflashi mumkin. bir nechta ikkilik svmlarni birlashtirish yoki ba'zi sinflardan iborat barcha ma'lumotlarni optimallashtirish muammosi shakliga integratsiyalash orqali svm multiclassni amalga oshirish …

Хотите читать дальше?

Скачайте все 17 страниц бесплатно через Telegram.

Скачать полный файл

О "hujjatlarni indekslashda vektor mashinalaridan foydalanish"

tech newsletter hujjatlarni indekslashda vektor mashinalaridan foydalanish. ilmiy maqolani nashr etish usullaridan biri uni konferentsiyada taqdim etishdir. konferentsiyada taqdim etilishidan oldin ro'yxatdan o'tgan ilmiy maqola toifalarga bo'linishi kerak. roʻyxatga olingan ilmiy ishlar juda koʻp boʻlganligi sababli, ilmiy maqolalar mavzusini avtomatik ravishda aniqlab beradigan va ularni tan olingan mavzular boʻyicha tasniflay oladigan tizimni oʻrnatish zarur. hujjatlarni toifalariga ko'ra tartibga solishning usullaridan biri bu tasniflashdir. ushbu ishda qo'llab-quvvatlash vektor mashinasi algoritmi hujjatlarni kompyuter fanining 5 toifasiga tasniflash usuli sifatida ishlatiladi. tizim testi ma'lumotlar namunasi sifatida 150 ta hujjat va ma'lumotlar testi sifatida 50 ta hujjatni olish o...

Этот файл содержит 17 стр. в формате PPTX (6,5 МБ). Чтобы скачать "hujjatlarni indekslashda vektor mashinalaridan foydalanish", нажмите кнопку Telegram слева.

Теги: hujjatlarni indekslashda vektor… PPTX 17 стр. Бесплатная загрузка Telegram