Kas teadsite, et Google'i arvutustabelite abil on võimalik veebisaidilt andmeid kraapida? Siin on, kuidas seda teha.

Veebikraapimine on võimas tehnika veebisaitidelt teabe eraldamiseks ja nende automaatseks analüüsimiseks. Kuigi saate seda teha käsitsi, võib see olla tüütu ja aeganõudev ülesanne. Veebikraapimise tööriistad muudavad protsessi kiiremaks ja tõhusamaks, kuid maksavad samal ajal vähem.

Huvitav on see, et Google'i arvutustabelid võivad tänu oma funktsioonile IMPORTXML olla teie ühekordne veebi väljamurdmise tööriist. IMPORTXML-i abil saate hõlpsasti andmeid veebilehtedelt kraapida ja kasutada neid analüüsiks, aruandluseks või muudeks andmepõhisteks ülesanneteks.

Funktsioon IMPORTXML Google'i arvutustabelites

Google'i arvutustabelid pakub sisseehitatud funktsiooni nimega IMPORTXML, mis võimaldab importida andmeid veebivormingutest, nagu XML, HTML, RSS ja CSV. See funktsioon võib muuta mängu, kui soovite veebisaitidelt andmeid koguda ilma keerukat kodeerimist kasutamata.

Siin on IMPORTXML-i põhisüntaks:

instagram viewer
=IMPORTXML(url, xpath_query)
  • url: selle veebilehe URL, millelt soovite andmeid koguda.
  • xpath_query: XPathi päring, mis määrab andmed, mida soovite ekstraktida.

XPath (XML Path Language) on keel, mida kasutatakse XML-dokumentides, sealhulgas HTML-is, navigeerimiseks, mis võimaldab teil määrata andmete asukoha HTML-struktuuris. XPathi päringute mõistmine on IMPORTXML-i õigeks kasutamiseks hädavajalik.

XPathi mõistmine

XPath pakub HTML-dokumendis andmete navigeerimiseks ja filtreerimiseks erinevaid funktsioone ja väljendeid. Põhjalik XML-i ja XPathi juhend jääb sellest artiklist välja, seega leppime mõne olulise XPathi kontseptsiooniga.

  • Elementide valik: saate elemente valida kasutades / ja // radade tähistamiseks. Näiteks, /html/body/div valib dokumendi kehas kõik div-elemendid.
  • Atribuutide valik: atribuutide valimiseks võite kasutada @. Näiteks, //@href valib kõik href atribuudid lehel.
  • Predikaatfiltrid: saate elemente filtreerida nurksulgudes ([ ]). Näiteks, /div[@class="container"] valib kõik div elemendid klassiga konteiner.
  • Funktsioonid: XPath pakub erinevaid funktsioone, näiteks sisaldab(), algab tähega (), ja tekst() konkreetsete toimingute tegemiseks, näiteks teksti sisu või atribuutide väärtuste kontrollimiseks.

Kuidas XPath veebisaidilt välja võtta

Seni teate IMPORTXML-i süntaksit, teate veebisaidi URL-i ja teate, millist elementi soovite ekstraktida. Aga kuidas saada elemendi XPath?

Sa ei pea teadma veebisaidi struktuuri peast, et selle andmeid IMPORTXML-iga eraldada. Tegelikult on igal brauseril suurepärane tööriist, mis võimaldab teil koheselt kopeerida mis tahes elemendi XPath.

Tööriist Inspect Element võimaldab teil XPathi veebisaidi elementidest ekstraheerida. Tehke järgmist.

  1. Liikuge eelistatud veebibrauseri abil veebilehele, mida soovite kraapida.
  2. Otsige üles element, mida soovite kraapida.
  3. Paremklõpsake elemendil.
  4. Valige Kontrollige elementi paremklõpsu menüüst. Teie brauser avab paneeli, mis kuvab veebilehe HTML-koodi. Vastav HTML-i element tõstetakse koodis esile.
  5. Paremklõpsake paneelil Inspect Element HTML-koodis esiletõstetud elemendil.
  6. Klõpsake Kopeerige XPath elemendi XPathi aadressi lõikelauale kopeerimiseks.

Nüüd, kui teil on kõik, mida vajate, on aeg näha IMPORTXML-i töös ja kraapida mõned lingid.

Saate kasutada IMPORTXML-i veebisaitidelt igasuguste andmete kraapimiseks. See hõlmab linke, videoid, pilte ja peaaegu kõiki veebisaidi elemente. Lingid on veebianalüüsi üks silmapaistvamaid elemente ja veebisaidi kohta saate palju teada, kui analüüsite lehti, millele see linkib.

IMPORTXML võimaldab teil kiiresti Google'i arvutustabelite linke kraapida ja seejärel neid Google'i arvutustabelite erinevate funktsioonide abil edasi analüüsida.

Kõigi veebilehe linkide kraapimiseks võite kasutada järgmist valemit:

=IMPORTXML(url, "//a/@href") 

See XPathi päring valib kõik href atribuudid a elemendid, ekstraheerides tõhusalt kõik lehel olevad lingid.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a/@href")

Ülaltoodud valem kraabib kõik Vikipeedia artikli lingid.

Soovitatav on sisestada veebilehe URL eraldi lahtrisse ja seejärel sellele lahtrile viidata. See hoiab ära teie segu liiga pikaks ja kohmakaks muutumise. Sama saate teha XPathi päringuga.

2. Kõigi linkide tekstide kraapimine

Linkide teksti ekstraheerimiseks koos nende URL-idega saate kasutada:

=IMPORTXML(url, "//a") 

See päring valib kõik elemendid ja saate tulemuste hulgast eraldada lingi teksti ja URL-id.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a")

Ülaltoodud valem saab samas Vikipeedia artiklis olevad lingitekstid.

Mõnikord peate võib-olla kriteeriumide alusel konkreetseid linke kraapima. Näiteks võite olla huvitatud linkide ekstraktimisest, mis sisaldavad konkreetset märksõna või linke, mis asuvad lehe kindlas jaotises.

XPathi õigete teadmistega saate täpselt määrata mis tahes otsitava elemendi.

Konkreetset märksõna sisaldavate linkide kraapimiseks võite kasutada funktsiooni include() XPath:

=IMPORTXML(url, "//a[contains(@href, 'keyword')]/@href") 

See päring valib elementide href atribuudid, kus href sisaldab määratud märksõna.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a[contains(@href, 'record')]/@href")

Ülaltoodud valem kraabib Vikipeedia näidisartiklisse kõik lingid, mis sisaldavad oma tekstis sõna kirjet.

Lehe konkreetsest jaotisest linkide kraapimiseks saate määrata jaotise XPath. Näiteks:

=IMPORTXML(url, "//div[@class='section']//a/@href") 

See päring valib elementide href atribuudid div-elementides klassiga "section".

Samamoodi valib allolev valem kõik divi klassi lingid, millel on klass mw-content-container:

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//div[@class='mw-content-container']//a/@href")

Väärib märkimist, et IMPORTXML-i saate kasutada ka enamaks kui veebikraapimiseks. Saate kasutada funktsioonide perekonda IMPORT importida andmetabeleid veebisaitidelt Google'i arvutustabelitesse.

Kuigi Google'i arvutustabelid ja Excel jagavad enamikku oma funktsioonidest, on funktsioonide perekond IMPORT ainult Google'i arvutustabelite jaoks ainulaadne. Peate kaaluma muid meetodeid importida andmeid veebisaitidelt Excelisse.

Lihtsustage veebikraapimist Google'i arvutustabelitega

Veebikraapimine Google'i arvutustabelite ja funktsiooniga IMPORTXML on mitmekülgne ja juurdepääsetav viis veebisaitidelt andmete kogumiseks.

Kui valdate XPathi ja mõistate, kuidas luua tõhusaid päringuid, saate avada IMPORTXML-i täieliku potentsiaali ja saada veebiressurssidest väärtuslikku teavet. Niisiis, alustage kraapimist ja viige oma veebianalüüs järgmisele tasemele!