Semalt: Pridobivanje URL-jev s spletnih strani s čudovito juho

Beautiful Soup je paket Python na visoki ravni, ki se uporablja za razčlenitev dokumentov XML in HTML. Knjižnica Beautiful Soup Python ustvari drevo razčlenitve, ki se uporablja za pridobivanje koristnih informacij iz jezika HyperText Markup Language (HTML). Ta knjižnica je na voljo za različice Python 2 in Python 3.

V večini primerov ugotovite, da lahko do svojih ciljnih podatkov dostopate le kot del spletne strani. V takem primeru morate uporabiti takšno tehniko spletnega strganja , s katero lahko izvlečete podatke v oblikah, ki jih je mogoče analizirati. Tukaj prihaja knjižnica Beautiful Soup.

Zahteve

Za uporabo knjižnice Beautiful Soup potrebujete prave module. Za začetek morate na svoj računalnik namestiti programski jezik Python 2.7. V tej objavi boste izvedeli, kako strgati spletno mesto in izvleči vse URL-je s pomočjo Zahteve in Lepa juha 4. Razčlenjevanje HTML-ja je opravilo sam, zlasti s tehnično pomočjo Beautiful Soup-a.

Zakaj uporabiti lepo juho?

Beautiful Soup je vrhunski paket Python, ki se od leta 2004 uporablja za striženje spletnih strani in razčlenjevanje HTML oznak. Pred kratkim je Beautiful Soup 4 v industriji zamenjal Beautiful Soup 3. Upoštevajte, da BS4 deluje v obeh različicah Python, medtem ko BS3 deluje samo na Python 2.7. Knjižnica obsega naslednje vgrajene funkcije:

  • Zmožnost kodiranja - Ko kodiranja na vaš računalnik namestite potrebne lepe module juhe, vam ni treba panično kodirati. Knjižnica je avtomatizirana za pretvorbo vhodov v Unicode in izhodov v UTF-8.
  • Zmogljivost navigacije - Beautiful Soup ponuja preproste načine uporabe za iskanje, navigacijo in spreminjanje drevesa razčlenitve.

Kako uporabljati knjižnico Beautiful Soup?

Ko namestite Beautiful Soup na svoj stroj, lahko začnete uporabljati knjižnico. Za začetek uvozite knjižnico bs4 na začetku kode Python. Posredujte vsebino ali URL na Beautiful Soup, da ustvarite objekt Jup. Vendar knjižnica ciljne spletne strani ne prejema na sebi. Tu morate to nalogo opraviti ročno. Želene spletne strani lahko preprosto tudi pridobite s kombinacijo Python in Beautiful Jup.

Vloga knjižnice zahtevkov

Če želite stran strgati, jo morate najprej prenesti. Spletne strani lahko prenesete s pomočjo knjižnice zahtev. Zahteva, da knjižnica deluje tako, da na spletne strežnike poda zahtevo "GET", ki bo nato prenesla vsebino HTML z želene spletne strani.

Pridobivanje URL-jev s spletnih strani

Zdaj imate podrobne informacije o knjižnici Beautiful Soup. Kombinacija knjižnice BS4 in Pythona vam bo pomagala zelo hitro pridobiti spletno stran. Če želite izvleči vse URL-je s ciljne spletne strani, uporabite metodo "našli vse". Ta metoda vam bo dala kompilacijo elementov z oznako. Iz bs4 uvozite tako Beautiful Soup kot zahteve. Zaženite kodo in vnesite spletno mesto ali spletno stran, s katere boste ekstrahirali URL-je.

mass gmail