Back to Question Center
0

Semalt - Hoe kinne jo websiden skealje?

1 answers:

Beautiful Soup is in python-bibleteek dy't in soad brûkt om skepping fan websiden te meitsjen troch in parsebeam te meitsjen fan XML- en HTML-dokuminten. Web skrapping, in technyk fan it útbrekken fan gegevens fan websiden en siden, is breed brûkt yn data analyze en managementfjilden. Yn 'e measte gefallen is de taalprogramma Python in betingst yn' e datawittenskip.

Python 3 hat skriuwende ark en modules dy't jo tapasse kinne oan jo data-management projekt. Op it stuit wurket as Beautiful Soup 4 dizze module is kompatibel mei sawol Python 3 as Python 2. 7 - mikrotik static route blackhole. Mooi Soup 4-module kin ek in parse-baai meitsje foar net-sluten tag-soup. Yn dit lesboek kinne jo learje hoe't jo de side skrappe en skrappe gegevens yn in CSV-bestân skriuwe.

Begjin te begjinnen

Om te begjinnen, sette in server of lokaal basearre Python-kodearring omjouwing op jo PC. Jo moatte ek Mooie Soup en Requests module op jo masine ynstallearje. Kennis fan it wurkjen mei beide modules is ek in needsaaklike betingst. Bekendheid mei HTML tagging en struktuer is ek in foardielend foardiel.

Understeande jo gegevens

Yn dit ferbân wurde echte gegevens fan 'e National Gallery of Art brûkt om jo te ferstean hoe't jo moaie Soup 4 brûke. Nasjonaal Gallery fan Keunst befettet 120.000 stikken dy't troch in ûngefear 13.000 artysten dien wurde. De keunst is basearre yn Washington D. C, Feriene Steaten.

Websideferwinning mei Beautiful Soup is net sa komplisearre. Bygelyks, as jo rjochtsje op letter Z, markearje en markearje de earste namme op 'e list. Yn dat gefal is de earste namme Zabaglia, Niccola. Om konsistinsje, markearje it oantal siden en de namme fan 'e lêste artyst op dizze side.

Wolle jo biblioteek bewarje, jo programma-omjouwing fan Python 3 aktivearje. Kontrolearje om jo derfoar soargje dat jo yn deselde map mei jo programmieromjouwing binne. Fiere it folgjende kommando om te begjinnen. my_env / bin / aktivearje.

In nije triem oanmeitsje en begjinne mei it ymportearjen fan Beautiful Soup en Requests libraries. Fersykbibleteek sil jo tastean om HTTP yn jo Python-programma's te brûken yn lêsbere formaten. De moaie Soup, oan 'e oare kant, wurket te skriuwen om siden fluch. Brûk bs4 om prachtige sop te ymportearjen.

Hoe kinne jo in webpagina sammje en parseare

Gebrûk fan fersyk sammele URL fan jo earste side. URL fan 'e earste side sil de fariabele side werjûn wurde. Set in objekt fan BeautifulSoup út Requests en parse it objekt fan Python's parser.

Yn dit lesboek is it doel om keppelings en keamers nammen te sammeljen. Bygelyks kinne jo artikels datums en nasjonaliteiten sammelje. Foar Windows brûkers, rjochtsklik op de earste namme fan de artyst. Yn dit gefal brûke Zabaglia, Niccola. Meitsje foar brûkers fan Mac OS 'CTRL' en klik de namme. Klik op it menu "Inspect Element" dat pop-ups op jo skerm befetsje om tagonklikens fan web-ûntwikkelders te krijen. Printsje de nammen fan 'e keunstners út om in prachtige Soup in beam te meitsjen.

Ferwiderjen fan de ûnderste links

Om de bottom links op jo webside te ferwiderje, kontrolearje de DOM troch te klikken op it elemint. Jo sille identifisearje dat de keppelings binne ûnder in HTML-tafel. Brûk de prachtige soap, brûke de "dekompose metoade" om tags út 'e parsebeam te wiskjen.

Wolle jo ynhâld fan in tag

Jo moatte de folsleine linktriem net printsje, gebrûk meitsje fan Beautiful Soup om materiaal te ferwiderjen fan in tag. Jo kinne ek URL-adressen ferifiearje mei de artysten mei it brûken fan Beautiful Soup 4.

It opnimmen fan skrapte gegevens nei in CSV-bestân

CSV-bestân sil jo struktureare data opsette yn in flakte tekst, in formaat dat meast brûkt wurdt foar datasheets. Kennis oer it behanneljen fan platte tekst-bestannen yn Python wurdt oanrikkemandearre.

Websideferzjes wurde brûkt om siden te skrassen en ynformaasje te krijen. Tink derom fan 'e websiden dy jo ekstraksje ynformaasje útfiere. Guon dynamyske websides beheine webferwizing op har plakken. Om side skeakelje mei Beautiful Soup en Python 3 is dat ienfâldich.

December 22, 2017