Veebi kraapimine hõlmab teabe kogumist veebisaitide või lehtede andmete kujul. Ehkki teie oma ei pruugi olla teadlik tegu, olete teabe kogumise ajal nii või teisiti ka veebi kraapinud. Kuid see on tavaliselt peen.
Veebi kraapimine või ekraani kraapimine on üldiselt sihipärane tegevus ja spetsialistid automatiseerivad disaini tohutute andmete saamiseks. Ükskõik, kas kopeerides veebisaidil tekste käsitsi, kasutades selleks spetsiaalseid tööriistu või kirjutades veebis kraapivaid skripte, löövad veebikaabitsad mõnikord veebisaidil kõvasti löögi, esitades korraga mitu taotlust.
Kuid kuigi paljud ettevõtted kasutavad nüüd konkurentsieeliste saavutamiseks veebikraapimist, kas see on tegelikult seaduslik?
Milliseid veebisaite peaksite kraapima?
Internet on teabekogum, mis annab inimestele juurdepääsu vanadele ja reaalajas andmetele. Veebi kraapimine või ekraani kraapimine on olnud juba mõnda aega. Kuid kui palju peaksite seda kasutama ja milliseid veebisaite saate kraapida?
Mõned veebisaidid on veebirobotite või ekraanikraabitsatega ranged ja blokeerivad need täielikult. Seega on silmatorkavalt selge, et te ei tohiks selliseid veebisaite kraapida. Kuid inimesed teevad seda ikkagi.
Kahjuks ei saa sellised saidid selle peatamiseks peale lünkade lappimise midagi muud teha.
Enne veebisaidi kraapimist peaksite ideaalis kontrollima, kas see võimaldab indekseerimist või mitte. Tavaliselt saate selle teada saidi failist robots.txt. Selleks saate sisestada "[veebisaidi URL] /robots.txt".
Robots.txt määrab reeglid reeglid erinevatele robotitele või kasutajaagentidele. Need reeglid varieeruvad aga sõltuvalt kaasatud veebisaidist. Mõni sait lubab indekseerida kõigil lehtedel, kuid mõned määravad lehed, mida robot saab indekseerida, ja mõned blokeerivad indekseerijad otse.
Veebisait, mis blokeerib kõikidel kasutajaagentidel kõigi lehtede indekseerimise, seab tavaliselt järgmised reeglid:
kasutaja agent: *
Keela: /
Robots.txt-fail, mis blokeerib kõik robotid teatud kataloogide või lehtede indekseerimise, näeb tavaliselt välja selline:
kasutaja agent: *
Keela: / URL 1. lehele
Keela: / URL 2. lehele
Kui robots.txt ei luba lehte, mida soovite roomata, siis võite selle tõenäoliselt kraapida. Vastasel juhul peaksite taganema või küsima administraatori nõusolekut. Nad võivad anda teile juurdepääsu.
Lisaks märgivad mõned veebisaidid oma kasutustingimustes selgesõnaliselt, kas nad lubavad indekseerimist või mitte. Mõned väidavad seda isegi oma robots.txt ülaosas. Kontrollige alati ka seda, et olla kindel, et teete õiget asja.
Kuidas veebi kraapimist kuritarvitatakse
Nii et kui olete saanud rämpsposti või SMS-e veebisaitidelt või inimestelt, kellele te pole kunagi oma isiklikke andmeid edastanud, siis tõenäoliselt on teid kuidagi kuhugi kraapitud. Ja enamasti toimub see ühe teie sotsiaalmeedia käepideme kaudu.
See tähendab, et veebi kraapimine on mõnikord midagi enamat kui lihtsalt kasutajaliidesesse edastatavate andmete kogumine. Pahatahtliku kasutamise korral võib see lekitada isiklikku ja salastatud teavet.
Kui enamik sotsiaalmeedia platvorme paneb selle peale pahaks, siis roomavad robotid pääsevad endiselt inimeste profiilidele ligi ning nende kontaktandmed lekivad ja kraapitakse.
Näiteks Facebookis on varem teatatud haavatavustest, mis lekitasid kasutajate kontaktandmeid, kuigi kasutajad hoiavad neid privaatsena.
Samamoodi tabas LinkedIn hiljuti turvarikkumist, mille tulemuseks oli isikuandmete lekkimine kuulub üle 500 miljoni konto. Järelikult põhjustas see haavatavus paljude e-posti aadresside ja telefoninumbrite jagamist ilma profiili omanike nõusolekuta.
Kas veebisaidi kraapimine on ebaseaduslik?
Veebikraapimise seaduslikkuse kohta pole kunagi järeldust tehtud. Selle asemel keskendutakse sellele, kuidas roomik juhtumipõhiselt töötab ja milleks nad kogutud andmeid kasutavad.
Nii et selle seaduslikkuse kohta järelduste tegemise asemel on kraapimine, kui seda tehakse pahatahtlikult, ebaseaduslik. Kuid kui seda teha mõistlikult, pole see ebaseaduslik.
Kuid nagu arvata võis, näib sotsiaalmeedia andmete kraapimise ja kasutamise suhtes olevat rangem poliitika, kuna kasutajate privaatsus on nii oluline. Kuid see kõik taandub ikkagi sellele, kuidas inimesed andmeid kraapivad.
The Interneti ja sotsiaalse meedia seaduse blogi analüüsis hiQ Labsi, andmete kraapimise ettevõtte juhtumit, kes võitis LinkedIni vastu kohtuvaidluse 2019. aastal pärast seda, kui ta üritas blokeerida hiQ Labsi avalikult kättesaadavate LinkedIni kasutajate andmete kraapimist.
Kuna hiQ Labs väidab, et arvutipettuste ja väärkasutuse seadus (CFAA) keelab ainult volitamata juurdepääsu, kohtuotsus kinnitas, et LinkedIni andmed olid avalikult kättesaadavad, nii et kõik, kes neid kraapis, tegi seda, sest nad on ligipääsetav.
Pealegi kasutas hiQ Labs kraapitud andmeid ainult ettevõtetele analüütiliste lahenduste pakkumiseks - nii et nad saaksid teha paremaid värbamisotsuseid.
Seevastu Facebook kaebas hiljuti Chrome'i laienduste arendajad kohtusse kes kraapis Facebooki kasutajate profiile ilma nende nõusolekuta.
Samamoodi a koopia saidi kaebas Facebook kohtusse mitme Instagrami kasutaja profiiliteabe kraapimiseks ja seejärel kloonide loomiseks. Selle aruande kohaselt läks Facebook seejärel kaugemale, et saada kurjategija suhtes alaline kohtumäärus.
Need on mõned juhtumid, kus inimesed võisid veebikraapimist kasutada ebaseaduslikult. Nimetatud ettevõtted kogusid Facebooki kasutajate andmeid petlikult, ilma kasutajate nõusolekuta. Nii et see rikkus privaatsuseeskirju.
Nii et kuigi veebi kraapimine võib pettuda saidi, kust see andmeid saab, ei takista ükski üldreegel praegu inimestel saada seda, mida nad tahavad, kui nad ei riku otse Interneti-seadusi.
Kas veebi kraapimine on häkkimise sünonüüm?
Veebikraapimise ümber on mõned müüdid. Üks neist on veendumus, et veebisaidi kraapimine tähendab, et olete selle häkkinud. Kuigi häkkimine võib lõpuks viia andmete kraapimiseni, ei vasta väide, et see termin ise tähendab veebisaidi häkkimist.
Veebi kraapimine võib hõlmata spetsiaalsed indekseerimise või kraapimise tööriistad, Rakendusprogrammeerimisliidesed (API) või veebis kraapivad skriptid renderdatud andmete saamiseks veebisaidilt. Erinevalt häkkimisest ei kahjusta see kaabitavat veebisaiti ega häiri kasutajate kogemusi.
Seotud: Mis on veebi kraapimine? Kuidas koguda andmeid veebisaitidelt
Nii et kui häkkimisega kaasneb volitamata juurdepääs, tavaliselt veebisaidi andmebaasi, sihib veebi kraapimine ainult neid andmeid, mis on juba kasutajaliideses nähtavad. Kuigi inimesed saavad veebikraapimist pahatahtlikult kasutada, pole see siiski häkkimise sünonüüm.
Lisaks sellele on erinevalt veebi kraapimisest tahtlik ja ebaeetiline häkkimine ebaseaduslik.
Millised on veebi kraapimise positiivsed küljed?
Veebikraapimisel on palju positiivset ja isegi mõned tehnoloogiaettevõtted pakuvad nüüd API-de kaudu oma andmeid tasuta. Sellest teabest ei piisa tavaliselt ärisuundumuste hindamiseks ja otsuste langetamiseks.
Nii saavad ettevõtted nüüd rohkem andmeid, kraapides veebi, et parandada tavasid ja suurendada müüki. Lisaks söödavad andmeteadlased masinõppe algoritme ekraani kraapimise kaudu kogutud andmetega.
Sellisteks andmeteks võivad olla pildituvastuses kasutatavad pildid, meeleolude analüüsiks lihtsad tekstid või turu-uuringute ja tarbijate käitumise analüüsimiseks otsesed tooteandmed.
Seotud: Masinõppeprojekti ainulaadsed viisid andmekogumite hankimiseks
Nii et veebi kraapimine on veelgi kasulikum, sest kui teil on juurdepääs teabele, mida teie konkurendil pole, võite neid võita.
Kuigi mõned saidid pahandavad veebikaabitsate poole, on mõnedel, isegi e-kaubanduse teenustel, ükskõik, kas kraapite nende andmeid või mitte. Veebigigandid nagu eBay ja Salesforce alustasid oma API-d 2000. aastal, pakkudes programmeerijatele esimest korda juurdepääsu avalikele andmetele.
Kas peaksite veebi tegelikult kraapima?
Oleme kindlaks teinud, et veebi kraapimine pole õigel viisil ebaseaduslik. Kuid muret teeb ka see, mida te kraapitavate andmetega teete. Nii et selle kuritarvitamise asemel kasutage seda, et saada rohkem teadmisi, mis aitavad teil ja teistel teadlikke otsuseid langetada.
Veebikraapimine kui oskus annab siiski juurdepääsu suurtele Interneti-andmete tükkidele, mis võivad aidata teil või teie ettevõttel püsida ärinišist kõrgemal. Andmeteadlasena laiendab see isegi teie ulatust ning parandab kodeerimis- ja tehnilisi oskusi.
Näiteks on Python üks programmeerimiskeeltest, mis aitab teil veebisaiti hõlpsalt kraapida oma kauni supi teegi või Scrapy raamistikuga.
Kas olete huvitatud veebi kraapimisest? Siit saate teada, kuidas Beautiful Soup Pythoni teegiga veebisaiti sisu ja muu jaoks kraapida.
Loe edasi
- Turvalisus
- Programmeerimine
- Veebiturvalisus
- Veebi kraapimine
Idowu on kirglik kõigest nutikast tehnoloogiast ja tootlikkusest. Vabal ajal mängib ta kodeerimisega ringi ja lülitub igavuse korral malelauale, kuid armastab ka rutiinist lahti murda. Tema kirg näidata inimestele moodsate tehnoloogiate ümber motiveerib teda rohkem kirjutama.
Telli meie uudiskiri
Liituge meie uudiskirjaga, et saada tehnilisi näpunäiteid, ülevaateid, tasuta e-raamatuid ja eksklusiivseid pakkumisi!
Veel üks samm !!!
Palun kinnitage oma e-posti aadress meilis meile, mille me just saatsime.