Soláthraíonn Saineolaí Semalt Treoir maidir leis an nGréasán a Scrapáil le Javascript

Is féidir le scrapáil gréasáin a bheith ina fhoinse iontach sonraí criticiúla a úsáidtear sa phróiseas cinnteoireachta in aon ghnó. Dá bhrí sin, tá sé ag croílár na hanailíse sonraí mar is é an t-aon bhealach cinnte é chun sonraí iontaofa a bhailiú. Ach, toisc go bhfuil an méid ábhar ar líne atá le fáil le scriosadh i gcónaí ag dul i méid, d’fhéadfadh sé go mbeadh sé beagnach dodhéanta gach leathanach a scrapadh de láimh. Éilíonn sé seo uathoibriú.

Cé go bhfuil go leor uirlisí amuigh ansin atá curtha in oiriúint do thionscadail scrapála uathoibrithe éagsúla, tá a bhformhór préimhe agus cosnóidh siad ádh ort. Seo an áit a dtagann Puppeteer + Chrome + Node.JS isteach. Treoróidh an rang teagaisc seo tú tríd an bpróiseas ag cinntiú gur féidir leat suíomhanna Gréasáin a scrabhadh gan stró go huathoibríoch.

Conas a oibríonn an socrú?

Tá sé tábhachtach a thabhairt faoi deara go mbeidh an-chuid eolais sa tionscadal seo má tá beagán eolais agat ar JavaScript. Chun tosaigh, beidh ort na 3 chlár thuas a fháil ar leithligh. Leabharlann nód is ea Puppeteer is féidir a úsáid chun Chrome gan cheann a rialú. Tagraíonn Headless Chrome don phróiseas a bhaineann le cróim a reáchtáil gan a GUI, nó i bhfocail eile gan chrome a rith. Beidh ort nód 8+ a shuiteáil óna shuíomh Gréasáin oifigiúil.

Tar éis na cláir a shuiteáil, tá sé thar am tionscadal nua a chruthú d’fhonn tosú ag dearadh an chóid. Go hidéalach, is é JavaScript a scríobadh sa mhéid is go mbeidh an cód á úsáid agat chun an próiseas scrapála a uathoibriú. Le haghaidh tuilleadh faisnéise ar Puppeteer féach ar a dhoiciméadú, tá na céadta sampla ar fáil duit chun imirt timpeall leo.

Conas scrapáil JavaScript a uathoibriú

Ar thionscadal nua a chruthú, téigh ar aghaidh chun comhad (.js) a chruthú. Sa chéad líne, beidh ort an spleáchas Puipéadóra a bhí suiteáilte agat níos luaithe a ghlaoch. Ansin leanann príomhfheidhm "getPic ()" a shealbhóidh an cód uathoibrithe go léir. Déanfaidh an tríú líne an fheidhm "getPic ()" a agairt chun í a rith. Ag cur san áireamh gur feidhm “async” í an fheidhm getPic (), is féidir linn an abairt atá ag fanacht a úsáid a chuirfidh an fheidhm ar sos agus muid ag fanacht go réiteoidh an “gealltanas” sula mbogfaimid ar aghaidh go dtí an chéad líne eile de chód. Feidhmeoidh sé seo mar phríomhfheidhm uathoibrithe.

Conas a ghlaoch suas chrome headless

An chéad líne eile de chód: "const browser = fanacht le puppeteer.Launch ();" seolfaidh puipéadóir go huathoibríoch agus reáchtálfaidh sé sampla chrome ag socrú é dár n-athróg "brabhsálaí" nua-chruthaithe. Lean ar aghaidh chun leathanach a chruthú a úsáidfear ansin chun nascleanúint a dhéanamh chuig an URL a theastaíonn uait a scrapadh.

Conas sonraí a scrapadh

Ligeann API Puipéadóir duit imirt timpeall le hionchuir láithreáin ghréasáin éagsúla cosúil le clogáil, líonadh foirmeacha chomh maith le sonraí a léamh. Féadfaidh tú tagairt a dhéanamh dó chun léargas dlúth a fháil ar conas is féidir leat na próisis sin a uathoibriú. Úsáidfear an fheidhm "scrape ()" chun ár gcód scrapála a ionchur. Lean ar aghaidh chun an fheidhm scrape.js nód a reáchtáil chun an próiseas scrapála a thionscnamh. Ba cheart go dtosódh an socrú iomlán ansin ag aschur an ábhair riachtanach go huathoibríoch. Tá sé tábhachtach cuimhneamh dul trí do chód agus seiceáil go bhfuil gach rud ag obair de réir an dearaidh chun earráidí a sheachaint ar an mbealach.

mass gmail