dastlabki qayta ishlash

PPTX 20 стр. 390,7 КБ Бесплатная загрузка

Предварительный просмотр (5 стр.)

Прокрутите вниз 👇
1 / 20
презентация powerpoint mavzu. berilganlarda dastlabki qayta ishlash dastlabki qayta ishlash dastlabki qayta ishlash berilganlarni tahlil qilishning eng muhim qadami. gigo - garbage in, garbage out, kirishda musor – chiqishda musor. mashinani o'qitish uchun berilganlar yomon bo'lsa, natija ham yomon bo'ladi, sifatli berilganlar natija uchun muhim rol o'ynaydi. sifatli berilganlar validlik (to'grilik). tanlanmadagi maydonlar va ulardagi qiymatlar turli qoidalarga mos kelishi. masalan, yosh qiymati butun son bo'lishi kerak, manzilidagi viloyati mavjud viloyatlar bo'lishi kerak. aniqlik. qiymatning standartga yoki real qiymatiga mosligi. bunga erishish qiyin, chunki tekshiruvda tashqi manbalardan olishi kerak. masalan, pochta indeksi uning geografik joylashuviga mosmi, manzilda ko'rsatilgan ko'cha, uy haqiqatdan mavjudmi. to'liqlik. kerak bo'lgan barcha ko'rsatkichlar mavjudligi. boshlang'ich kuzatuvda aniqlanmagan faktlar bo'yicha xulosa chiqarish mumkin emas. masalan, 6 oy oldin yig'ilgan ma'lumotlarda qolib ketgan faktlarni qaytadan so'rov o'tkazib aniqlashning imkoni deyarli yo'q. muvofiqlik. o'lchovlar to'plami turli tizimlar bo'yicha ekvivalentligi. berilganlar to'plamidagi ikkita obyekt bir-birini inkor qilishi natijasida yuzaga keladi, …
2 / 20
tashqi kalitlar to'g'riligi regulyar ifodaga moslik, masalan, telefon nomer uchun (999) 999–9999 shablon maydonlararo tekshiruv, masalan, laborator tibbiyotda leykositlar differensial miqdori komponentlari yig'indisi 100 bo'lishi kerak, kasalxonadan ketish vaqti kelish vaqtidan oldin bo'lishi mumkin emas muammo “iflos” berilganlar sabablar alomat mumkin bo'lmagan qiymat tug'ilgan kun=32.09.2010 qiymat diapazon chegarasidan chiqqan yozuv alomatlar bog'liqligi buzilgan yosh=32, tug'ilgan sana=12.03.1960 ёш=айни сана-туғилган сана yozuv turi unikallikning buzilishi xodim1=(ism=axmad, inn=123456789) xodim2=(ism=salim, inn=123456789) inn unikal bo'lishi kerak manbaa havola butunligi buzilishi xodim=(ism=axmad, bo'lim=0) 0 nomerli bo'lim mavjud emas alomat o'tkazib yuborilgan qiymat tel. = qiymatni kiritishda mumkin bo'lmagan qiymat alomat orgografik xato shahar = toooshkent orfografik xato alomat qiymatlar birlashib ketishi ism = axmad 12.09.2000 toshkent alomatda bir nechta qiymat yozuv alomatlar bog'liqligi buzilgan shahar=toshkent, indeks=8000010 shahar va uning indeksi mos emas yozuv turi yozuvlar dublikati xodim1=(ism=axmad, inn=123456789) xodim1=(ism=axmad, inn=123456789) tizimning berilganlar ustida ishlash modulidagi xatolik yozuv turi yozuvlar zidligi xodim1=(ism=axmad, inn=123456789) xodim1=(ism=axmad, inn=987654321) bitta xodim …
3 / 20
vtomatlashtirilgan. berilganlarni saqlovchi tizimlarga biriktirilgan maxsus xizmatlar orqali, masalan, sql server data tools, ibm spss va h.k. skriptlar yordamida. biror dasturlash tizilda yozilgan maxsus kodlar orqali. qo'lda. analitik barcha berilganlarni o'zi tekshirib chiqadi, ekspert yordamida biror jarayonni amalga oshiradi. odatiy usullar: xato mavjud yozuvlarni o'chiris. berilganlarni statistik usullar orqali to'g'irlash yozuvlarni solishtirish va mos qiymatni tanlash xatolarni to'g'irlovchi lug'atdan foydalanish instance selection yozuvlar asosida o'rgatish – instance-based learning, memory-based learning mashinali o'qitishda yozuvlar asosida o'rgatishni amalga oshiruvchi algoritmlar oilasi mavjud. bunda umumlashtirishni amalga oshirishning o'rniga yangi yozuvlarni mavjud yozuvlar o'qitishda ko'rilgan, xotirada saqlangan obyektlar bilan taqqoslash amalga oshiriladi. bunday algoritmlar "yalqov" algoritmlar deyiladi. namunalar: k-yaqin qo'shni algoritmlari; yadro mashina algoritmlari; rbf to'rlar. bu algoritmlarning asosiy muammosi uning murakkabligi – o(n). murakkablikni pasaytirish uchun yozuvlarni qisqartirish algoritmlari mavjud. normalization minimaks normallashtirish z-score, o'rtacha qiymatni 0 ga yaqinlashtirish o'nli normallashtirish, 10j ga bo'lish orqali normallashtiradi, namuna: -10, 201, 301, -401, 501, 601, …
4 / 20
obyektlar boshqa obyetlar bilan masshtablanadi. izohlashga ta'siri: normalizatsiya mashinani o'rganish modeli natijalarini sharhlashni qiyinlashtirishi mumkin, chunki kirishlar umumiy shkalada bo'ladi, bu berilganlarning asl shkalasiga mos kelmasligi mumkin. qo'shimcha hisoblash xarajatlari: normalizatsiya berilganlarni tahlil qilish jarayoniga qo'shimcha hisoblash xarajatlarini qo'shadi, chunki berilganlarni o'lchash uchun qo'shimcha ishlov berish vaqti talab qilinadi. data transformation quyidagi qadamlarda amalga oshiriladi: berilganlarni aniqlash (data discovery) – berilganlarni strukturasini va xarakteristikalarini aniqlash, ularni qanday qayta shakllantirish kerakligini aniqlash. berilganlarni akslantirish (data mapping) – alohida maydonlarni akslantirish usuli, masalan, kategorial berilganlarni sonli ko'rinishga o'tkazish, sana maydonidan alohida kun, oy, yil maydonlarini hosil qilish. berilganlarni tekshirish (data review) – kiruvchi ma'lumotlar mosligini, to'g'riligini tekshirish. odatda ushbu qadam berilganlarndan foydalanuvchi shaxs tomonidan amalga oshiriladi, ixtiyoriy xatolar, anomalliklar dasturchiga yoki berilganlar tahlilchisiga yetkaziladi. data transformation ikki xil usulda berilganlarni akslantirish amalga oshiriladi: 1. label encoding 2. one hot encoding dimensionality reduction feature selection va feature extraction fazoni qisqartirish (dimensionality reduction) masalalari …
5 / 20
amini tanlash. asosiy usullar: filter usullar: alomatlar va sinf ustuni o'rtasidagi bog'liqlikni ko'rishga asoslangan (pearson korrelyatsiya koeffitsienti, chi-kvadrat test) qobiq usullar: mashinali o'qitish modeli samaradorligini baholash orqali alomatlar qism to'plamini tanlashga asoslangan. turli to'plamlar bo'yicha bir necha martalab o'rgatish amalga oshiriladi va eng yaxshisi tanlanadi. bu usullar konkret modelda yaxshi natija beradigan alomatlar to'plamini topish imkonini beradi. hisoblash murakkabligi jihatdan yuqori hisoblanadi. o'rnatilgan usullar: alomatlar modelni o'rgatish jarayonida avtomatik tanlanadi, o'qitish jarayoni tugaganidan so'ng muhim alomatlar to'plamini taqdim qiladi. feature selection feature selection – mashinali o'qitishda modelni qurish uchun muhim bo'lgan alomatlarning qism to'plamini tanlash. kiruvchi o'zgaruvchi chiquvchi o'zgaruvchi usul numerical numerical pearson’s correlation coefficient spearman’s rank coefficient numerical categorical anova correlation coefficient (linear). kendall’s rank coefficient (nonlinear). categorical numerical kendall’s rank coefficient (linear). anova correlation coefficient (nonlinear). categorical categorical chi-squared test (contingency tables). mutual information. to'liq bo'lmagan berilganlar tanlanmada berilmagan yoki saqlanmagan qiymatlar mavjud bo'lishi mumkin. ular quyidagi turlarga …

Хотите читать дальше?

Скачайте все 20 страниц бесплатно через Telegram.

Скачать полный файл

О "dastlabki qayta ishlash"

презентация powerpoint mavzu. berilganlarda dastlabki qayta ishlash dastlabki qayta ishlash dastlabki qayta ishlash berilganlarni tahlil qilishning eng muhim qadami. gigo - garbage in, garbage out, kirishda musor – chiqishda musor. mashinani o'qitish uchun berilganlar yomon bo'lsa, natija ham yomon bo'ladi, sifatli berilganlar natija uchun muhim rol o'ynaydi. sifatli berilganlar validlik (to'grilik). tanlanmadagi maydonlar va ulardagi qiymatlar turli qoidalarga mos kelishi. masalan, yosh qiymati butun son bo'lishi kerak, manzilidagi viloyati mavjud viloyatlar bo'lishi kerak. aniqlik. qiymatning standartga yoki real qiymatiga mosligi. bunga erishish qiyin, chunki tekshiruvda tashqi manbalardan olishi kerak. masalan, pochta indeksi uning geografik joylashuviga mosmi, manzilda ko'rsatilgan ko...

Этот файл содержит 20 стр. в формате PPTX (390,7 КБ). Чтобы скачать "dastlabki qayta ishlash", нажмите кнопку Telegram слева.

Теги: dastlabki qayta ishlash PPTX 20 стр. Бесплатная загрузка Telegram