Back to Question Center
0

Semalt: 3 stappen nei PHP Webside Skrapping

1 answers:

Web skrapping, ek wol webdata ekstraksje of webnrnjen neamd, is de proses fan it útfieren fan gegevens fan in webside of blog. Dizze ynformaasje wurdt dan brûkt brûkt om meta-tags, meta-beskriuwingen, kaaiwurden en keppelings oan in side te setten, en ferbetterje har totale prestaasjes yn 'e resultaten fan' e sykmasine.

Twa wichtige techniken wurde brûkt om de gegevens te skrassen:

  • Document parsing - It giet om in XML- of HTML-dokumint dat konvertearret nei de DOM (Document Object Model ) bestannen. PHP biedt ús mei grutte DOM-útwreiding.
  • Regelmjittige útdrukkingen - It is in wize om skonken fan gegevens fan 'e websiden yn' e foarm fan reguliere útdrukken.

It probleem mei de skrappendaten fan webside fan tredden is ferbân mei it copyright omdat jo gjin tastimming hawwe om dizze gegevens te brûken. Mar mei PHP kinne jo jo gegevens maklik skrappe sûnder problemen dy't ferbûn binne mei copyrights of lege kwaliteit. As PHP-programmer kinne jo gegevens fan ferskate websiden foar kodearings nedich hawwe. Hjir binne wy ​​eksplisyt hoege jo gegevens fan oare siden effisjoneel te krijen, mar foar dat moatte jo derom rekkenje dat by einsluten jo index.php of scrape.js-bestannen krije.

Steps1: Formulier meitsje om it URL-adres yn te nimmen:

Earst moatte jo formulier yn index.php oanmeitsje troch te klikken op 'e knop Submit en kinne jo de URL-adres ynstelle foar it skrassen fan gegevens.



)



Steps2: meitsje PHP-funksje om websteeën te krijen:

De twadde stap is om te meitsjen PHP-funksjonearret yn 'e scrape.php-bestân as dit helpt dat gegevens helje en de URL-biblioteek brûke. It sil jo ek tastean om te ferbinen en te kommunisearjen mei ferskillende servers en protokollen sûnder probleem..

function scrapeSiteData ($ website_url) {

as (! Function_exists ('curl_init')) {

die ('cURL is net ynstallearre. ');

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, wier);

$ output = curl_exec ($ curl);

curl_close ($ curl);

werom $ útfier;

}

Hjir kinne wy ​​sjen oft de PHP cURL goed ynstallearre is of net. Drei wichtige cURLs moatte brûkt wurde yn it funksjesgebiet en curl_init

sil de helpboarnen ynlade, curl_exec

sil it útfiere en curl_close

sil de ferbining slute. De fariabelen lykas CURLOPT_URL wurde brûkt om de URL-adressen te setten dy't wy nedich hawwe om te skrassen. De twadde CURLOPT_RETURNTRANSFER sil de helpferlienende siden helpe yn it fariabele formulier as it standertformulier, dat de lêste webstee úteinlik werjaan sil.

Steps3: Skrappe Spesifike data fan 'e webside:

It is tiid om de funksjes fan jo PHP bestân te behanneljen en de spesifike paragraaf fan jo webside te skrassen. As jo ​​net alle gegevens fan in spesifike URL wolle, moatte jo gebrûk meitsje fan de fariabelen CURLOPT_RETURNTRANSFER en markearje de ôfdielingen dy't jo skriuwe wolle.

as (isset ($ _POST ['submit'])) {

$ html = scrapeWebsiteData ($ _POST ['website_url']);

$ start_point = strpos ($ html, 'Lêste berjochten');

$ end_point = strpos ($ html, '', $ start_point);

$ length = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ lengte);

echo $ html;

}

Wy suggerearje jo om de basiskennis fan PHP en de Regular Expressions te ûntwikkeljen foardat jo ien fan dizze koades brûke of skrappe in bepaalde blog of webside foar persoanlike doelen.

December 8, 2017
Semalt: 3 stappen nei PHP Webside Skrapping
Reply