veb-sahifadan ma'lumot yig'ish

DOCX 5 pages 29.7 KB Free download

Page preview (5 pages)

Scroll down 👇
1 / 5
6-amaliy mashg‘ulot. beautifulsoup funksiyasi yordamida oddiy web-saytdan ma’lumot olish. veb-qirqish - bu veb-sahifalardan ma’lumotlarni avtomatik ravishda yig‘ishdir. buning uchun pythonda ko‘pincha requests (html olish uchun) va beautifulsoup (uni tahlil qilish uchun) kutubxonalaridan foydalaniladi. beautifulsoup - bu html/xml parsing kutubxonasi bo‘lib, u sahifa kodini teglar "daraxti"ga aylantiradi, bu esa kerakli ma’lumotlarni qidirish va olishni osonlashtiradirealpython.com. statik saytlar bilan ishlashda (dinamik javascriptsiz) odatda requests + beautifulsoup yetarli; dinamik saytlar uchun selenium yoki scrapyrealpython.com talab qilinishi mumkin. bu vazifada biz quyidagilarni o‘rganamiz: · requests va beautifulsoupni o‘rnatish va ulash. · mahalliy html faylini ochish va qismlarga ajratish mahalliy html faylini ochish. · haqiqiy saytga http so‘rovlarini yuborish (masalan, example.com). · jadvaldan sarlavhalar, havolalar, ro‘yxat elementlari va ma’lumotlarni ajratib olish. · izohlar bilan tushunarli kod yozish va bosqichlarni batafsil tushuntirish. boshlash uchun python 3 va requests va beautifulsoup4 kutubxonalari o‘rnatilganini tekshiring (ularni pip install requests beautifulsoup4digitalocean.comdigitalocean.com orqali o‘rnatish mumkin). atrofni tayyorlash 1. kerakli kutubxonalarni …
2 / 5
(’sample.html’, ’r’, encoding=’utf-8’) as file: html_content = file.read () # 2-qadam: htmlni tahlil qilish uchun beautifulsoup obyektini yaratamiz sho‘rva = beautifulsoup (html_content, ’html.parser’) # 3-qadam: kerakli elementlarni ajratib olamiz no 3.1. sarlavhalar h1 = soup.find (’h1’) # birinchi teg h2 = soup.find (’h2’) # birinchi teg print (h1.text) # kutilayotgan natija: asosiy sarlavha print (h2.text) # kutilayotgan natija: taglavha no 3.2. ro‘yxat elementlari: ichidagi barcha ni topamiz list_items = soup.find_all (’li’) # hujjatdagi barcha teglarini topadi:contentreference[oaicite:5]{index=5} for li in list_items: print (li.text) # kutilayotgan natija: # ta ro‘yxat elementi 1 # ta ro‘yxat elementi 2 no 3.3. jadval: tegini topamiz, so‘ngra satrlar va kataklar bo‘ylab harakatlanamiz table = soup.find (’jadval’) rows = table.find_all (’tr’) # jadvalning barcha qatorlari:contentreference[oaicite:6]{index=6} for row in rows[1:]: # birinchi qatorni o‘tkazib yuboramiz (sarlavha) cells = row.find_all (’td’) # har bir katakdagi matnni olamiz row_data = [cell.text for cell in cells] print (row_data) # kutilayotgan natija: …
3 / 5
itta) va href atributiga hamda teg ichidagi matnga murojaat qilamiz. haqiqiy saytni tahlil qilish endi haqiqiy saytga so‘rov yuboramiz. misol tariqasida misol.com saytini olaylik - oddiy statik test sayti. import so‘rovlari from bs4 import beautifulsoup # 1-qadam: sahifani so‘rovlar yordamida olamiz response = requests.get (’https://example.com’) # ta get-so‘rov:contentreference[oaicite:11]{index=11} print (response.status_code) # kutilayotgan: 200 (ok) # 2-qadam: olingan htmldan beautifulsoup obyektini yarating sho‘rva = beautifulsoup (response.text, ’html.parser’) # 3-qadam: kontentni 1-qismga o‘xshab ajratib olamiz # ta sarlavha h1 = soup.find (’h1’) print (h1.text) # kutilayotgan natija: example domain # ta paragraf paragraflar = soup.find_all (’p’) paragraflarda p uchun: print (p.text) # kutilayotgan natija: # ta namuna domeni # this domain is for use in illustrative examples in documents. buni ishlatishingiz mumkin oldindan kelishilmagan va ruxsat so‘ralmagan adabiyotdagi # ta domen. # batafsil... # ta paragraf ichidagi havola a_tag = soup.find (’a’) print (a_tag[’href’], ’-’, a_tag.text) # kutilayotgan xulosa: https://www.iana.org/domains/example - more …
4 / 5
talocean.com yordamida http so‘rovlarini yuborish va javobni qayta ishlash. · teglarni qidirish uchun find () va find_all () usullaridan foydalaning: find () topilgan birinchi tegni qaytaradi, find_all () - barcha mosliklarrealpython.comgeeksforgeeks.org. · tegdan matnni .text orqali ajratib olish (masalan, tag.text ochuvchi va yopuvchi teg orasidagi kontentni qaytaradi) realpython.com. · teg atributlarini ajratib olish (masalan, tag[’href’] havola uchun ). · ichki ro‘yxatlar va jadvallarni qayta ishlash find_all. topshiriqlarni bajarishda kodga tushunarli izohlar yozing (yuqoridagi misollar kabi) va xulosani tekshiring. agar find_all () usuli teglar ro‘yxatini qaytargan bo‘lsa, ularni siklda qayta ko‘rib chiqish va har birida .text chiqarish mumkin. o‘z-o‘zini tekshirish uchun savollar · soup.find_all () usuli nima qiladi va undan teglarni qidirishda qanday foydalaniladi? (maslahat: u barcha topilgan elementlar ro‘yxatini qaytaradigeeksforgeeks.org.) · beautifulsoupda find () va find_all () orasida qanday farq bor? · topilgan tegning matnli kontentini qanday olish mumkin? (javob: .text xossasi yoki .get_text () realpython.com metodi orqali.) · beautifulsoup …
5 / 5
veb-sahifadan ma'lumot yig'ish - Page 5

Want to read more?

Download all 5 pages for free via Telegram.

Download full file

About "veb-sahifadan ma'lumot yig'ish"

6-amaliy mashg‘ulot. beautifulsoup funksiyasi yordamida oddiy web-saytdan ma’lumot olish. veb-qirqish - bu veb-sahifalardan ma’lumotlarni avtomatik ravishda yig‘ishdir. buning uchun pythonda ko‘pincha requests (html olish uchun) va beautifulsoup (uni tahlil qilish uchun) kutubxonalaridan foydalaniladi. beautifulsoup - bu html/xml parsing kutubxonasi bo‘lib, u sahifa kodini teglar "daraxti"ga aylantiradi, bu esa kerakli ma’lumotlarni qidirish va olishni osonlashtiradirealpython.com. statik saytlar bilan ishlashda (dinamik javascriptsiz) odatda requests + beautifulsoup yetarli; dinamik saytlar uchun selenium yoki scrapyrealpython.com talab qilinishi mumkin. bu vazifada biz quyidagilarni o‘rganamiz: · requests va beautifulsoupni o‘rnatish va ulash. · mahalliy html faylini ochish va qismlarga ...

This file contains 5 pages in DOCX format (29.7 KB). To download "veb-sahifadan ma'lumot yig'ish", click the Telegram button on the left.

Tags: veb-sahifadan ma'lumot yig'ish DOCX 5 pages Free download Telegram