Andmete hankimine on suur osa uute ja uuenduslike projektide kallal töötamisest. Kuidas aga saada kätte suurandmed kogu internetist?

Andmete käsitsi kogumine ei tule kõne alla. See on liiga aeganõudev ega anna täpseid ega kõikehõlmavaid tulemusi. Kuid milline marsruut tagab spetsiaalse veebi kraapimistarkvara ja veebisaidi spetsiaalse API vahel parima andmete kvaliteedi, ohverdamata terviklikkust ja moraali?

Mis on veebiandmete kogumine

Andmete kogumine on avalikult kättesaadavate andmete hankimine otse veebipõhistelt veebisaitidelt. Selle asemel, et tugineda ainult ametlikele teabeallikatele, näiteks varasematele uuringutele ja uuringutele suuremate ettevõtete ja usaldusväärsete institutsioonide puhul võimaldab andmete kogumine andmete kogumise enda omaks võtta käed.

Kõik, mida vajate, on veebisait, mis pakub avalikult soovitud tüüpi andmeid, tööriist nende väljavõtmiseks ja andmebaas nende salvestamiseks.

Esimene ja viimane samm on üsna lihtsad. Tegelikult võite Google'i kaudu valida juhusliku veebisaidi ja salvestada oma andmed Exceli arvutustabelisse. Andmete väljavõtmine on asi, kus läheb keeruliseks.

instagram viewer

See on seaduslik ja eetiline

Seaduslikkuse mõttes, seni, kuni te ei kasuta andmete hankimiseks musta veebisaidi tehnikat või rikute veebisaidi privaatsuspoliitikat, olete selge. Samuti peaksite vältima kogutud andmetega midagi ebaseaduslikku, näiteks põhjendamatuid turunduskampaaniaid ja kahjulikke rakendusi.

Eetiliste andmete kogumine on veidi keerulisem asi. Ennekõike peaksite austama veebisaidi omaniku õigusi oma andmete suhtes. Kui nende veebisaidi mõnes või kõigis osades on robotite välistamise standardid, vältige seda.

See tähendab, et nad ei taha, et keegi nende andmeid ilma sõnaselge loata kraapiks, isegi kui need on avalikult kättesaadavad. Lisaks peaksite vältima liiga palju andmete allalaadimist korraga, kuna see võib põhjustada veebisaidi serverite krahhi ja teid märgistada DDoS rünnak.

Veebi kraapimine on nii lähedal kui võimalik andmete kogumise küsimuste enda kätte võtmiseks. Need on kõige kohandatavamad võimalused ja muudavad andmete hankimise lihtsaks ja kasutajasõbralikuks, pakkudes samas piiramatut juurdepääsu kogu veebisaidi saadaolevatele andmetele.

Veebi kraapimise tööriistadvõi veebikaabitsad on andmete väljavõtmiseks välja töötatud tarkvara. Need on sageli andmesõbralikud programmeerimiskeeled, näiteks Python, Ruby, PHP ja Node.js.

Veebikaabitsad laadivad ja loevad automaatselt kogu veebisaidi. Nii pole neil juurdepääs ainult pinnataseme andmetele, vaid nad saavad lugeda ka veebisaidi HTML-koodi, samuti CSS-i ja Javascripti elemente.

Saate seadistada oma kaabitsa koguma teatud tüüpi andmeid mitmelt veebisaidilt või anda talle käsu lugeda ja kopeerida kõiki andmeid, mis ei ole krüptitud ega kaitstud failiga Robot.txt.

Veebikaabitsad töötavad puhverserverite kaudu, et vältida veebisaidi turvalisuse ning rämpsposti- ja botivastaste tehnoloogiate blokeerimist. Nad kasutavad puhverserverid varjata oma identiteeti ja varjata oma IP -aadressi, et see näeks välja nagu tavaline kasutajaliiklus.

Kuid pidage meeles, et kraapimise ajal täielikult varjatud seadmiseks peate seadistama oma tööriista andmete väljavõtmiseks palju aeglasemalt - sellise, mis vastab inimkasutaja kiirusele.

Kasutuslihtsus

Vaatamata sellele, et tuginetakse suuresti keerulistele programmeerimiskeeltele ja raamatukogudele, on veebi kraapimisvahendeid lihtne kasutada. Nad ei nõua, et oleksite programmeerimise või andmeteaduse ekspert, et neist maksimaalselt kasu saada.

Lisaks valmistavad veebikraaperid andmed teie jaoks ette. Enamik veebikraapereid teisendab andmed automaatselt kasutajasõbralikesse vormingutesse. Samuti koondavad nad selle hõlpsaks juurdepääsuks kasutamiseks allalaaditavateks pakettideks.

API andmete ekstraheerimine

API tähistab rakenduste programmeerimisliidest. Kuid see ei ole andmete hankimise tööriist, vaid see on funktsioon, mille veebisaitide ja tarkvara omanikud saavad valida. API -d toimivad vahendajana, võimaldades veebisaitidel ja tarkvaral suhelda ning andmeid ja teavet vahetada.

Tänapäeval on enamikul veebisaitidel, mis käsitlevad tohutul hulgal andmeid, spetsiaalne API, näiteks Facebook, YouTube, Twitter ja isegi Wikipedia. Kuid kuigi veebikaabits on tööriist, mis võimaldab teil sirvida ja kraapida veebisaidi kõige kaugemaid nurki, on API -d struktureeritud nende andmete väljavõtmisel.

Kuidas API andmete ekstraheerimine toimib?

API -d ei nõua andmete kogujatelt nende privaatsuse austamist. Nad jõustavad selle oma koodi. API -d koosnevad reeglitest mis loovad struktuuri ja piiravad kasutajakogemust. Need määravad, millist tüüpi andmeid saate välja võtta, millised andmeallikad on kogumiseks avatud ja teie päringute sagedust.

Võite API-sid mõelda veebisaidi või rakenduse kohandatud suhtlusprotokollina. Sellel on teatud reeglid, mida tuleb järgida, ja ta peab enne selle suhtlemist rääkima oma keeles.

API kasutamine andmete ekstraheerimiseks

API kasutamiseks vajate korralikku teadmist päringukeeles, mida veebisait kasutab süntaksi abil andmete küsimiseks. Enamik veebisaite kasutab oma API -des JavaScripti objektimärgistust või JSON -i, nii et kui vajate API -sid, peate teadmiste täiustamiseks mõnda neist täiendama.

Kuid see ei lõpe sellega. Suurte andmemahtude ja inimeste erinevate eesmärkide tõttu saadavad API -d tavaliselt algandmeid. Kuigi protsess ei ole keeruline ja nõuab andmebaasidest ainult algaja tasemel arusaamist, peate enne nende toimingute tegemist andmed teisendama CVS-i või SQL-i.

Õnneks pole API kasutamine kõik halb.

Kuna need on veebisaidi pakutavad ametlikud tööriistad, ei pea te muretsema puhverserveri kasutamise või IP -aadressi blokeerimise pärast. Ja kui olete mures, et võite ületada mõned eetilised piirid ja jäägid, mida teil ei lubatud, annavad API -d juurdepääsu ainult andmetele, mida omanik soovib anda.

Sõltuvalt teie praegusest oskuste tasemest, teie sihtveebisaitidest ja eesmärkidest peate võib -olla kasutama nii API -sid kui ka veebi kraapimise tööriistu. Kui veebisaidil pole spetsiaalset API -d, on veebikaabitsa kasutamine teie ainus võimalus. Kuid API-ga veebisaidid-eriti kui nad küsivad tasu andmetele juurdepääsu eest-muudavad sageli kraapimise kolmanda osapoole tööriistade abil peaaegu võimatuks.

Pildikrediit: Joshua Sortino/Tühista pritsimine

JagaPiiksumaE -post
Miks Android -tahvelarvutid pole head (ja mida selle asemel osta)

Kas mõtlete Android -tahvelarvuti ostmisele? Siin on põhjused alternatiivsete tablettide kaalumiseks ja mõned tahvelarvutite soovitused.

Loe edasi

Seotud teemad
  • Tehnoloogia selgitatud
  • Programmeerimine
  • Suured andmed
  • Andmete kogumine
  • Veebiarendus
Autori kohta
Anina Ot (50 artiklit avaldatud)

Anina on MakeUseOfi vabakutseline tehnoloogia- ja internetiturbe kirjutaja. Ta hakkas küberturvalisusega kirjutama 3 aastat tagasi, lootuses muuta see tavainimesele kättesaadavamaks. Soov õppida uusi asju ja tohutu astronoomia nohik.

Veel Anina Otilt

Telli meie uudiskiri

Liituge meie uudiskirjaga, et saada tehnilisi näpunäiteid, ülevaateid, tasuta e -raamatuid ja eksklusiivseid pakkumisi!

Tellimiseks klõpsake siin