Puudulik teave on sageli enamiku andmeteaduslike projektide üks peamisi tagasilööke. Kuid teadmine, kuidas koguda andmeid iga projekti kohta, mille soovite alustada, on oluline oskus, mille peate omandama andmeteadlasena.

Andmeteadlased ja masinõppeinsenerid kasutavad nüüdisaegseid andmekogumisvõtteid, et koolitusalgoritmide jaoks rohkem andmeid hankida. Kui plaanite alustada oma esimest andmeteaduse või masinõppe projekti, peate suutma hankida ka andmeid.

Kuidas saaksite protsessi enda jaoks lihtsaks muuta? Vaatame mõnda kaasaegset tehnikat, mida saate andmete kogumiseks kasutada.

Miks vajate oma andmeteaduse projekti jaoks rohkem andmeid?

Masinõppe algoritmid sõltuvad andmetest täpsemaks, täpsemaks ja ennustatavamaks. Neid algoritme koolitatakse andmekogumite abil. Treeninguprotsess sarnaneb väikelapsele esmakordselt eseme nime õpetamisega, võimaldades seejärel seda järgmisel korral nähes üksi tuvastada.

Inimesed vajavad uue objekti äratundmiseks vaid mõnda näidet. See pole nii masina puhul, kuna ta vajab objekti tundmaõppimiseks sadu või tuhandeid sarnaseid näiteid.

instagram viewer

Need näited või koolitusobjektid peavad olema esitatud andmete kujul. Spetsiaalne masinõppe algoritm töötab seejärel läbi selle andmekogumi, mida nimetatakse koolituskomplektiks - ja saab selle täpsemaks õppimiseks rohkem teada.

See tähendab, et kui te ei anna algoritmi koolitamiseks piisavalt andmeid, ei pruugi teie projekti lõpus saada õiget tulemust, kuna masinal pole piisavalt andmeid, millest õppida.

Nii et tulemuse täpsuse parandamiseks on vaja saada piisavalt andmeid. Vaatame allpool mõnda kaasaegset strateegiat, mida saate selle saavutamiseks kasutada.

1. Andmete kraapimine otse veebilehelt

Veebi kraapimine on veebist andmete hankimise automatiseeritud viis. Kõige põhilisemas vormis võib veebi kraapimine hõlmata veebisaidi elementide kopeerimist ja kleepimist kohalikku faili.

Veebikraapimine hõlmab aga ka spetsiaalsete skriptide kirjutamist või spetsiaalsete tööriistade kasutamist veebisaidilt otse andmete kraapimiseks. See võib hõlmata ka andmete põhjalikumat kogumist Rakenduse programmeerimisliidesed (API) nagu Serpstack.

Kasutage Serpstacki API abil otsingutulemitest kasulikke andmeid

Serpstacki API abil saate hõlpsalt teavet hankida Google'i ja teiste otsingumootorite tulemuste lehtedelt.

Kuigi mõned inimesed usuvad, et veebi kraapimine võib viia intellektuaalse omandi kaotamiseni, saab see juhtuda ainult siis, kui inimesed seda pahatahtlikult teevad. Veebi kraapimine on seaduslik ja aitab ettevõtetel paremaid otsuseid langetada, kogudes avalikku teavet oma klientide ja konkurentide kohta.

Seotud: Mis on veebi kraapimine? Kuidas koguda andmeid veebisaitidelt

Näiteks võite kirjutada skripti, et koguda andmeid veebipoodidest, et võrrelda hindu ja saadavust. Ehkki see võib olla veidi tehnilisem, saate ka veebi kaudu toorest meediumit nagu helifailid ja pildid koguda.

Heitke pilk veebi kraapimisest Pythoni koodiga, vaadake allpool näidiskoodi ilus supp4 HTML-i parseri kogu.

bs4-st importige BeautifulSoup
aadressilt urllib.request impordi urlopen
url = "Sisestage siia sihtveebi täielik URL"
targetPage = urlopeen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
print (webData.get_text ())

Enne näidiskoodi käivitamist peate installima teegi. Looge virtuaalne keskkond käsurealt ja installige teek, käivitades pip installige ilusupp4.

2. Veebivormide kaudu

Andmete kogumiseks saate kasutada ka veebivorme. See on kõige kasulikum, kui teil on sihtgrupp inimesi, kellelt soovite andmeid koguda.

Veebivormide saatmise puuduseks on see, et te ei pruugi koguda nii palju andmeid kui soovite. See on väikeste andmeteaduslike projektide või õpetuste jaoks üsna mugav, kuid võite sattuda piirangutesse, püüdes jõuda suure hulga anonüümsete inimesteni.

Kuigi on olemas tasulised veebipõhised andmekogumisteenused, ei soovitata neid üksikisikutele, kuna need on enamasti liiga kallid - välja arvatud juhul, kui te ei viitsi projekti jaoks veidi raha kulutada.

Inimestelt andmete kogumiseks on olemas erinevad veebivormid. Üks neist on Google Forms, millele pääsete juurde minnes forms.google.com. Sa saad kasutage kontaktteabe kogumiseks teenust Google Forms, demograafilised andmed ja muud isikuandmed.

Kui olete vormi loonud, pole vaja teha muud, kui saata link sihtrühmale posti, SMS-i või mis tahes muu võimaliku vahendi abil.

Google Forms on siiski vaid üks näide populaarsetest veebivormidest. Seal on palju alternatiive, mis teevad ka suurepäraseid andmekogumistöid.

Andmeid saate koguda ka sotsiaalmeedia väljaannete kaudu, nagu Facebook, LinkedIn, Instagram ja Twitter. Sotsiaalmeediast andmete hankimine on natuke tehnilisem kui mis tahes muu meetod. See on täielikult automatiseeritud ja hõlmab erinevate API-tööriistade kasutamist.

Sotsiaalmeediast võib olla keeruline andmeid välja võtta, kuna see on suhteliselt korrastamata ja neid on tohutult palju. Korralikult korraldatud seda tüüpi andmekogum võib olla kasulik andmeteaduse projektides, mis hõlmavad meeleolu veebianalüüsi, turusuundumuste analüüsi ja veebibrändimist.

Näiteks on Twitter sotsiaalmeedia andmeallika näide, kuhu saate selle abil koguda suure hulga andmekogumeid tweepy Pythoni API pakett, mille saate installida pip paigaldada tweepy käsk.

Põhinäite jaoks näeb Twitteri kodulehe tweetide väljavõtmise koodiplokk välja selline:

import tweepy
impordi re
myAuth = tweepy. OAuthHandler (kleepige siia tarbija_võtme, kleepige võti consumer_secret siia)
auth.set_access_token (kleebi siia access_token, kleepige access_token_secret siia)
autentima = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
target_tweetis olevate sihtmärkide jaoks:
print (target.text)

Võite külastada docs.tweepy.org veebisaidile tweepy lisateavet selle kasutamise kohta. Twitteri API kasutamiseks peate taotlema arendajakonto, suundudes saidile developer.twitter.com veebisaidil.

Facebook on veel üks võimas sotsiaalmeedia platvorm andmete kogumiseks. See kasutab spetsiaalset API lõpp-punkti nimega Facebook Graph API. See API võimaldab arendajatel koguda andmeid konkreetsete kasutajate käitumise kohta Facebooki platvormil. Juurdepääs Facebook Graph API dokumentatsioonile on aadressil developers.facebook.com selle kohta lisateabe saamiseks.

API-ga sotsiaalmeedia andmete kogumise üksikasjalik selgitus ei kuulu selle artikli reguleerimisalasse. Kui olete huvitatud lisateabest, võite iga platvormi dokumentatsioonist vaadata nende põhjalikke teadmisi.

Lisaks skriptide kirjutamisele API-lõpp-punktiga ühenduse loomiseks meeldib sotsiaalmeedia andmetele, mis koguvad kolmandate osapoolte tööriistu Kaabitamise ekspert ja paljud teised on samuti saadaval. Enamikul neist veebitööriistadest on aga oma hind.

4. Eelnevalt olemasolevate andmekogumite kogumine ametlikest allikatest

Võite koguda ka olemasolevaid andmekogumeid autoriteetsetest allikatest. See meetod hõlmab ametlike andmepankade külastamist ja nendest kontrollitud andmekogumite allalaadimist. Erinevalt veebi kraapimisest ja muudest valikutest on see valik kiirem ja nõuab vähe või üldse mitte tehnilisi teadmisi.

Seda tüüpi allikate andmekogumid on tavaliselt saadaval CSV, JSON, HTML või Exceli vormingutes. Mõned näited autoriteetsetest andmeallikatest on Maailmapank, UNdataja mitmed teised.

Mõni andmeallikas võib muuta praegused andmed privaatseks, et takistada avalikkusele neile juurdepääsu. Nende arhiivid on aga sageli allalaadimiseks kättesaadavad.

Rohkem ametlikke andmekogumi allikaid teie masinõppeprojektile

See loend peaks andma teile hea lähtepunkti, et saaksite oma projektides töötada erinevat tüüpi andmetega.

  • ELi avatud andmete portaal
  • Kaggle andmekogumid
  • Google'i andmekogumi otsing
  • Andmekeskus
  • AWS-i avatud andmete register
  • Euroopa Valitsusagentuur - andmed ja kaardid
  • Microsofti teadusuuringute avatud andmed
  • Awesome Public Datasets Repository saidil GitHub
  • Andmed. Gov: USA valitsuse avatud andmete kodu

Allikaid on palju rohkem kui see ja hoolikas otsimine premeerib teid andmetega, mis sobivad teie enda andmeteaduslike projektide jaoks.

Paremate tulemuste saamiseks ühendage need kaasaegsed tehnikad

Andmete kogumine võib olla tüütu, kui ülesande jaoks saadaolevad tööriistad on piiratud või raskesti mõistetavad. Kui vanemad ja tavapärased meetodid töötavad endiselt hästi ja on mõnel juhul vältimatud, on tänapäevased meetodid kiiremad ja usaldusväärsemad.

Kuid selle asemel, et tugineda ühele meetodile, võib nende tänapäevaste andmete kogumise viiside kombinatsioon anda paremaid tulemusi.

E-post
5 Data Analyticsi tarkvaratööriista, mida saate kiiresti õppida

Kas soovite siseneda andmeanalüütikasse? Siin on mõned tööriistad, mida peaksite õppima.

Seotud teemad
  • Programmeerimine
  • Python
  • Suured andmed
  • Masinõpe
  • Andmete kogumine
  • Andmete analüüs
Autori kohta
Idowu Omisola (45 artiklit on avaldatud)

Idowu on kirglik kõigest nutikast tehnoloogiast ja tootlikkusest. Vabal ajal mängib ta kodeerimisega ringi ja lülitub igavuse korral malelauale, kuid armastab ka rutiinist lahti murda. Tema kirg näidata inimestele moodsate tehnikate kohta motiveerib teda rohkem kirjutama.

Veel Idowu Omisolalt

Telli meie uudiskiri

Liituge meie uudiskirjaga, kus leiate tehnilisi näpunäiteid, ülevaateid, tasuta e-raamatuid ja eksklusiivseid pakkumisi!

Veel üks samm !!!

Palun kinnitage oma e-posti aadress meilis, mille me just saatsime.

.