indeksnisiqish

PPTX 26 pages 568.9 KB Free download

Page preview (5 pages)

Scroll down 👇
1 / 26
prezentatsiya powerpoint indeksni siqish indeksni siqish lug'at va teskari indeksni siqish usullaridan foydalanish – samarali axborot qidiruv tizimlarini shakllantirish imkonini beradi. 2 ma’lumotlarni siqish afzalliklari indeks hajmini kamaytirish xotira maydonidan joyni tejash imkonini beradi. 3 siqishning asosiy afzalliklari siqishning asosiy 2 ta afzalliklarini misol keltirish mumkin: keshlashdan foydalanish 4 tezkor ma’lumot almashish keshlash qidiruv tizimlari lug'at va indeksning ayrim qismlaridan boshqalarga qaraganda ko'proq foydalaniladi. misol uchun, agar tez-tez ishlatiladigan so'rov atamasi t xabarlari ro'yxatini (posting list) keshlasak, u holda bir muddatli so'rovga javob berish uchun zarur bo'lgan hisob-kitoblar to'liq xotirada bajarilishi mumkin bo’ladi. siqish yordamida biz asosiy xotiraga juda ko'p ma'lumotlarni sig'dira olishimiz mumkin. 5 tezkor ma’lumot almashish siqishning ikkinchi afzalligi - ma'lumotlarni diskdan xotiraga tezroq o'tkazish. unziplashning samarali algoritmlari zamonaviy apparat vositalarida shunchalik tez ishlaydiki, diskdan siqilgan ma'lumotlar qismini uzatish va uni ochishning umumiy vaqti odatda bir xil ma'lumotlar qismini siqilmagan shaklda uzatishdan kamroq bo'ladi. misol uchun, juda kam …
2 / 26
a edi, siqish agar siqishning asosiy algoritmlarining tezligi muhim ahamiyatga ega bo’lmas edi. ammo keshlashdan foydalanishni yaxshilash va diskdan xotiraga tezroq ma’lumotlarni o'tkazish uchun unziplash tezligi yuqori bo'lishi kerakdir. shuning uchun qidiruv tizimlarida (information retrieval - ir) siqish algoritmlari yuqori samarali tezkorlikga ega bo’lishlari zarur. 8 siqish usullari ma’lumotlarni siqish usullari yo‘qotishsiz (lossless compression), ya’ni barcha ma'lumotlar saqlanib qoladi va yuqori darajada siqish imkonini beruvchi yo‘qotilishli siqilish (lossy compression) bilan erishish mumkin. bu esa ba’zi ma’lumotlarni o’chirib tashlaydi. 9 turlicha atamalar soni (m) lug'atni siqish usullarini joriy etishda to'plamdagi turlicha atamalar sonini (m) aniqlash muhim. ba’zida, barcha tillarning ma’lum hajmdagi so’z boyligi mavjudligi takidlanadi. misol uchun, oxford english dictionary (oed) ikkinchi nashrida 600 000 dan ortiq so'zlarni o'z ichiga oladi. ammo ko'pgina yirik to'plamlarning lug'at hajmi oedga qaraganda ancha katta. oed ko'pgina insonlarning nomlarini, joylar nomini, mahsulotlarni yoki ilmiy atamalarni o'z ichiga olmaydi. ushbu nomlarni esa teskari indeksga kiritilishi kerak, …
3 / 26
0,49 ≈ 38 323). aslida, atamalar soni 38 365 tani tashkil etadi, bu bashorat qilingan qiymatga juda yaqin. 11 heaps qonuni (heaps' law) k parametri juda keng diapazonda o'zgarib turadi, chunki leksikaning o'sishi ko'p jihatdan to'plamning tabiatiga va uni qayta ishlashga bog'liq. harflarni birxillashtirish va stemming amali leksikaning o'sish sur'atini pasaytiradi, shu bilan birga sonlar va noto'g'ri imlolar uni oshiradi. muayyan to'plam uchun parametr qiymatlaridan qat'i nazar, heaps qonunida aytilishicha: 1) to'plamdagi hujjatlar soni ortib borishi bilan leksikaning hajmi maksimal darajaga yetguncha o'sishda davom etadi va 2) katta to'plamlar uchun leksikaning hajmi yetarlicha katta bo’ladi. shunday qilib, lug'atni siqish axborot qidirish tizimlarining sifati darajasini oshirishda muhim rol o'ynaydi. 12 zipf qonuni (zipf's law): atamalarning taqsimlanishini modellashtirish zipf qonuni – bu to‘plamdagi atamalarning taqsimlanishini modellashtirishda keng qo‘llaniladi. uning ta'kidlashicha, agar t1 – bu to'plamda eng keng tarqalgan atama bo'lsa, t2 – bu navbatdagi eng keng tarqalgan atama bo'lsa va h.o, u …
4 / 26
lari diskda bo'lsa, so'rovlarga javob berish uchun yana ko'plab disklarni qidirish kerak bo'ladi. shunday qilib, lug'atni siqishning asosiy maqsadi uni asosiy xotiraga yoki hech bo'lmaganda uning katta qismini yuqori so'rovlar o'tkazish qobiliyatini qo'llab-quvvatlashdir. 16 lug'at saqlash - naïve versiya ruxsat etilgan kenglikdagi yozuvlar massivi ~400,000 term; 28 bytes/term = 11.2 mb. terms freq. postings ptr. a 656,265 aachen 65 …. …. zulu 221 lug'at qidiruv tuzilmasi 20 bytes 4 bytes each sec. 5.2 17 o’zgarmas uzunlikda joy ajratish (fixed width) term ustunidagi baytlarning ko‘p qismi isrof qilinadi - biz 1 harfli atamalar uchun 20 bayt ajratamiz. ingliz tilida o'rtacha ~6,5 belgi/so’z. ingliz tilidagi lug’atdagi so‘z: ~8 belgi – har bir lug‘at atamasi uchun ~8 ta belgidan qanday foydalanamiz? qisqa so‘zlar tokenlar sonida ustunlik qiladi, lekin o‘rtacha deb yozib bo‘lmaydi. sec. 5.2 18 lug'at qator sifatida lug'atni saqlashning eng oddiy usuli uning elementlarini leksikografik tartibda joylashtirish va ularni belgilangan uzunlikdagi yozuvlar …
5 / 26
r sifatida 21 lug'at qator sifatida (binar qidiruv) endi esa yanada sodda ko’rinishda jadvalda binar qidiruv (binary search) yordamida ma'lumotlar tuzilmasidagi atamalarni qidiriladi. oldingi sxema bilan solishtirganda, bu sxema xotiraning 60% ni tejaydi, chunki biz bir atama uchun o'rtacha 20 bayt o'rniga 12 bayt ajratamiz. 22 bloklangan xotira (blocked storage) lug'atni qatordagi atamalarni k o'lchamdagi bloklarga guruhlash va har bir blokning faqat birinchi a'zosiga ko'rsatgich qo'yish orqali yanada siqish mumkin. ko‘rsatkichlarni har bir k-sonli qatorga saqlash. – misol uchun k=4. term uzunligini saqlash kerak (qo'shimcha 1 bayt) ….7systile9syzygetic8syzygial6syzygy11szaibelyite8szczecin9szomo…. freq. postings ptr. term ptr. 33  oradadi 3 ta  ko’rsatgich uchun  9 bayt tejaladi. 29 44 126 7 term uzunli uchun 4 bayt sarflanadi sec. 5.2 23 old kodlash (front coding) front-coding: saralangan so‘zlar odatda uzoq umumiy prefiksga ega - faqat farqlarni saqlash (k blokidagi oxirgi k-1 uchun) 8automata8automate9automatic10automation 8automat*a1e2ic3ion "automat" prefiksini kodlaydi " automat " dan ortiq qo'shimcha …

Want to read more?

Download all 26 pages for free via Telegram.

Download full file

About "indeksnisiqish"

prezentatsiya powerpoint indeksni siqish indeksni siqish lug'at va teskari indeksni siqish usullaridan foydalanish – samarali axborot qidiruv tizimlarini shakllantirish imkonini beradi. 2 ma’lumotlarni siqish afzalliklari indeks hajmini kamaytirish xotira maydonidan joyni tejash imkonini beradi. 3 siqishning asosiy afzalliklari siqishning asosiy 2 ta afzalliklarini misol keltirish mumkin: keshlashdan foydalanish 4 tezkor ma’lumot almashish keshlash qidiruv tizimlari lug'at va indeksning ayrim qismlaridan boshqalarga qaraganda ko'proq foydalaniladi. misol uchun, agar tez-tez ishlatiladigan so'rov atamasi t xabarlari ro'yxatini (posting list) keshlasak, u holda bir muddatli so'rovga javob berish uchun zarur bo'lgan hisob-kitoblar to'liq xotirada bajarilishi mumkin bo’ladi. siqish yordamida b...

This file contains 26 pages in PPTX format (568.9 KB). To download "indeksnisiqish", click the Telegram button on the left.

Tags: indeksnisiqish PPTX 26 pages Free download Telegram