boolevizlashtizimizindaintellektualqidiruv turlari

PPTX 37 стр. 152,2 КБ Бесплатная загрузка

Предварительный просмотр (5 стр.)

Прокрутите вниз 👇
1 / 37
powerpoint presentation boolev izlash tizimi va intellektual qidiruv turlari mavzuda ko‘riladigan savollar bool qidiruv tizmi nima va u qayerda foydalaniladi? intellektual qidiruv tizmi nima va u qayerda foydalaniladi? klasterlash nima? data mining nima? neyron tarmoq nima? meta teg nima? axborotlarni izlash va ajratib olish 2 ma’ruza rejasi axborotlarni izlash va ajratib olish 3 boolev qidiruv tizimi va uning mehanizmi; intellektual qidiruv va uning mexanizmi. internetda qidiruv tizimlari. xulosa. teskari indeks va indekslarni oddiy mantiqiy so‘rovlari axborotlarni izlash va ajratib olish 4 mantiq algebrasining asosiy tushunchalari. asosan uchta jarayon bor: and, birikma, va (˄); or, disjunktsiya, yoki (˅); not, inkor, inkor (ˉ). mantiq algebrasining asosiy qoidalari. 1 and 1 = 1 1 and 0 = 0 0 and 1 = 0 0 and 0 = 0 1 or 1 = 1 1 or 0 = 1 0 or 1 = 1 0 or 0 = 0 not 1 = 0 not …
2 / 37
ay hollarda hujjat indeksidan foydalaniladi. hujjat indeksi hujjatlarni ketma-ket skanerlashni oldini olish uchun ishlatiladi. buning uchun har bir hujjat uchun biz topshiriqdan ma'lum bir so'z bor yoki yo'qligini ko'rsatadigan yozuv yaratamiz. barcha so'zlar uchun yozuvlarni yaratish natijasida ikkilik "so'z-hujjat" matritsasi tuziladi. ushbu matritsada ustun hujjat vektori, satr so'z vektoridir. mantiqiy (boolev) qidiruv axborotlarni izlash va ajratib olish 8 antony and cleopatra julius caesar the tempest hamlet othello macbeth antony 1 1 0 0 0 1 brutus 1 1 0 1 0 0 caesar 1 1 0 1 1 1 calpurnia 0 1 0 0 0 0 cleopatra 1 0 0 0 0 0 mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0 mantiqiy (boolev) qidiruv axborotlarni izlash va ajratib olish 9 mantiqiy algebra asosida hisob-kitoblarni bajarib, natija vektorini olamiz: 100100 shunday qilib, javob quyidagicha ko'rinadi: izlangan so'zlarning kombinatsiyasi quyidagi peysalarda mavjud: antony, cleopatra va hamlet …
3 / 37
= 500 000 ga yaqin turli atamalarni o'z ichiga olishi mumkin. sodda tarzda “atama-hujjat” matritsasini yarata olmaymiz. 500k x 1m matritsada yarim trillion birlar va nollar mavjud - bu kompyuter xotirasiga sig‘ish uchun juda katta. mantiqiy (boolev) qidiruv axborotlarni izlash va ajratib olish 13 insidans (hosida) matritsasi juda siyrak, ya'ni, faqat oz sonli nolga teng bo‘lmagan elementlarni o'z ichiga oladi. har bir hujjat 1000 ta so'zdan iborat bo'lganligi sababli, matritsada ko'pi bilan bir milliard so'z bo'ladi, shuning uchun hujayralarning kamida 99,8 foizi noldan iborat bo'ladi. xotirada faqat birliklarni saqlash ancha samarali. bu g'oya axborotni izlashda birinchi muhim kontseptsiya - teskari indeks uchun asosdir. mantiqiy (boolev) qidiruv axborotlarni izlash va ajratib olish 14 teskari indeksni yaratish jarayoni quyidagi bosqichlardan iborat: biz indeksatsiya qilinadigan hujjatlarni yig'amiz. ya'ni, biz to’plamni (kollektsiya) shakllantiramiz. matnni belgilaymiz, har bir hujjatni tokenlar ro'yxatiga aylantiramiz. dastlabki lingvistik ishlovni amalga oshiramiz, indekslangan atamalar bo'lgan normalashgan leksemalar ro‘yxatini tuzamiz. atama …
4 / 37
arni normalashgan leksemalarni hisobga olgan holda yozamiz. mantiqiy (boolev) qidiruv axborotlarni izlash va ajratib olish 17 so’ngra, birinchi leksemani olib, to‘plamdagi barcha matnlarni ko‘rib chiqamiz. keyingi ustunda ushbu token topilgan hujjatning identifikatorini yozamiz. shunday qilib, barcha leksemalar uchun "token - hujjat identifikatori" juftlarini aniqlaymiz. biz bir xil leksema juftlarini birlashtiramiz, mos ravishda ikkinchi ustunga mos keladigan aniqlovchilarni keltiramiz. ikkinchi ustunda olingan hujjat identifikatorlari ro‘yxati so‘z pozitsiyalari ro‘yxati deb ataladi. mantiqiy (boolev) qidiruv axborotlarni izlash va ajratib olish 18 olingan jadvalni alfavit tartibida tokenlar bo‘yicha tartiblaymiz. natijada barcha tokenlar uchun tartiblangan juftliklar to'plamning teskari indeksi hosil bo’ladi. hujjatdagi leksemalar to'plami va mos keladigan chastota qiymatlari lug'at yoki leksika deb ataladi. jismoniy jihatdan, lug'atlar ramda saqlanadi va so'z pozitsiyalari ro'yxati qattiq diskda saqlanadi. mantiqiy (boolev) qidiruv axborotlarni izlash va ajratib olish 19 teskari indeks va asosiy boolean so'rovlarni qayta ishlash qanday ishlaydi? peysalari to‘plamining teskari ko‘rsatkichi bor. qidiruv modeli yordamida aytaylik, bizda …
5 / 37
ay tashkil etishni tanlash. mantiqiy so'rovlarni qayta ishlash samaradorligiga ta'sir qiluvchi asosiy omil so'z pozitsiyalari ro'yxatiga kirish tartibidir. and amali bilan birlashtirilgan t ta atamalardan iborat so'rovni ko'rib chiqamiz. masalan, brutus and caesar and calpurnia mantiqiy (boolev) qidiruv axborotlarni izlash va ajratib olish 22 amalda standart evristik usul qo'llaniladi, u hujjatlar chastotasining ortib borayotgan tartibida atamalarni qayta ishlashdan iborat. agar biz so'z pozitsiyalarining ikkita eng kichik ro'yxatining kesishmasidan boshlasak, unda barcha oraliq natijalar so'z pozitsiyalarining eng kichik ro'yxatidan oshmasligi kerak, ya'ni biz eng kam ish hajmini qilamiz. brutus − caesar − 1 →2 →4 →11→ 31 →45 →173→ 174 1→2→ 4→ 5→ 6 →16 →57→ 132 . . . calpurnia − 2→ 31→ 54→ 101 mantiqiy (boolev) qidiruv axborotlarni izlash va ajratib olish 23 taqdim etilgan so'z pozitsiyalari ro'yxati uchun so'rovlarni qayta ishlash quyidagicha ko'rinishi kerak. (calpurnia and brutus) and caesar intellektual qidiruv tushunchalari axborotlarni izlash va ajratib olish 24 …

Хотите читать дальше?

Скачайте все 37 страниц бесплатно через Telegram.

Скачать полный файл

О "boolevizlashtizimizindaintellektualqidiruv turlari"

powerpoint presentation boolev izlash tizimi va intellektual qidiruv turlari mavzuda ko‘riladigan savollar bool qidiruv tizmi nima va u qayerda foydalaniladi? intellektual qidiruv tizmi nima va u qayerda foydalaniladi? klasterlash nima? data mining nima? neyron tarmoq nima? meta teg nima? axborotlarni izlash va ajratib olish 2 ma’ruza rejasi axborotlarni izlash va ajratib olish 3 boolev qidiruv tizimi va uning mehanizmi; intellektual qidiruv va uning mexanizmi. internetda qidiruv tizimlari. xulosa. teskari indeks va indekslarni oddiy mantiqiy so‘rovlari axborotlarni izlash va ajratib olish 4 mantiq algebrasining asosiy tushunchalari. asosan uchta jarayon bor: and, birikma, va (˄); or, disjunktsiya, yoki (˅); not, inkor, inkor (ˉ). mantiq algebrasining asosiy qoidalari. 1 and 1 = 1 1 and 0 ...

Этот файл содержит 37 стр. в формате PPTX (152,2 КБ). Чтобы скачать "boolevizlashtizimizindaintellektualqidiruv turlari", нажмите кнопку Telegram слева.

Теги: boolevizlashtizimizindaintellek… PPTX 37 стр. Бесплатная загрузка Telegram