Andmestiku analüüsimiseks peate esmalt andmetest aru saama. Mõnikord ei pruugi teil olla andmestiku kohta eelteadmisi, mis takistab teil sellest maksimumi võtmast. Andmeanalüütikuna saate kasutada uurimuslikku andmeanalüüsi (EDA), et saada enne süvaanalüüsi oma andmekogumist teadmisi.

Uurimuslik andmete analüüs (EDA) uurib andmestikku, et saada tähendusrikkaid teadmisi. EDA teostamise protsess hõlmab teabe päringuid andmestiku struktuuri ja sisu kohta.

Gota paketi installimine

Gota pakett on kõige populaarsem andmete analüüs in Go; see on nagu Python Panda pakett aga Go jaoks. Gota pakett sisaldab palju meetodeid andmekogumite analüüsimiseks ning JSON-, CSV- ja HTML-vormingute lugemiseks.

Käivitage see käsk oma terminalis kataloogis, kus olete Go mooduli faili initsialiseerinud:

mine get -u github.com/mine-peab/peab

Käsk installib Gota kohalikku kataloogi, mis on valmis paketi importimiseks selle kasutamiseks.

Nii nagu Pandas, toetab ka Gota seeriate ja andmeraamide toiminguid. Gota paketis on kaks alampaketti: seeria ja andmeraami pakett. Sõltuvalt teie vajadustest saate importida kas ühe või mõlemad.

importida (
"github.com/mine-gota/gota/series"
"github.com/mine-gota/gota/dataframe"
)

Andmestiku lugemine Gota paketi abil

Võite kasutada mis tahes CSV-faili, mis teile meeldib, kuid järgmised näited näitavad tulemusi Kaggle'i andmestik, mis sisaldab sülearvuti hinnaandmeid.

Gota võimaldab teil lugeda CSV-, JSON- ja HTML-failivorminguid, et luua andmekaare kasutades Lugege CSV-d, Lugege JSON-ija Loe HTML-i meetodid. CSV-faili andmeraami objekti laadimiseks tehke järgmist.

fail, err := os. Open("/path/to/csv-file.csv")

kui eks!= null {
fmt. Println("faili avamise viga")
}

dataFrame := andmeraam. Lugege CSV(faili)
fmt. Println (andmeraam)

Võite kasutada Avatud meetod os pakett CSV-faili avamiseks. ReadCSV-meetod loeb failiobjekti ja tagastab andmeraami objekti.

Selle objekti printimisel on väljund tabelivormingus. Saate andmeraami objektiga täiendavalt manipuleerida, kasutades erinevaid Gota pakutavaid meetodeid.

Objekt prindib mõned veerud ainult siis, kui andmekogumil on määratud väärtust rohkem.

Andmestiku mõõtme toomine

Andmeraami mõõtmed on selles sisalduvate ridade ja veergude arv. Neid mõõtmeid saate hankida kasutades Hämardub andmeraami objekti meetod.

var read, veerud = dataFrame. Dims()

Ainult teise dimensiooni toomiseks asendage üks muutujatest alakriipsuga. Samuti saate ridade ja veergude arvu eraldi küsida, kasutades Now ja Ncol meetodid.

var read = dataFrame. Nrow()
var veerud = dataFrame. Ncol()

Veergude andmetüüpide toomine

Selle analüüsimiseks peate teadma andmestiku veergudes olevaid liitandmetüüpe. Saate need hankida kasutades Tüübid teie andmeraami objekti meetod:

var tüübid = dataFrame. Tüübid ()
fmt. Println (tüübid)

Meetod Tüübid tagastab lõigu, mis sisaldab veeru andmetüüpe:

Veergude nimede toomine

Toimingute jaoks konkreetsete veergude valimiseks vajate veergude nimesid. Võite kasutada Nimed meetod nende toomiseks.

var veerunimed := andmeraam. Nimed ()
fmt. Println (veerunimed)

Meetod Nimed tagastab osa veergude nimedest.

Puuduvate väärtuste kontrollimine

Teil võib olla andmestik, mis sisaldab null- või mittenumbrilisi väärtusi. Selliseid väärtusi saate kontrollida kasutades HasNaN ja IsNaN seeriaobjekti meetodid:

aCol := dataFrame. Col("kuva_suurus")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()

HasNan kontrollib, kas veerg sisaldab nullelemente. IsNaN tagastab tõeväärtuste lõigu, mis näitab, kas iga väärtus veerus on arv.

Kirjeldava statistilise analüüsi tegemine

Kirjeldav statistiline analüüs aitab teil mõista numbriliste veergude jaotust. Kasutades Kirjelda meetodil, saate luua oma andmestiku kirjeldava statistilise analüüsi:

kirjeldus := dataFrame. Kirjelda ()
fmt. Println (kirjeldus)

Meetod Kirjelda tagastab mõõdikud, nagu andmestiku veergude keskmine, standardhälve ja maksimaalsed väärtused. See võtab need kokku tabelivormingus.

Samuti võite olla konkreetne ning keskenduda veergudele ja mõõdikutele, valides konkreetse veeru ja esitades seejärel soovitud mõõdiku päringu. Esmalt peaksite hankima konkreetset veergu esindavad seeriad ja seejärel kasutama selle meetodeid, näiteks:

aCol := dataFrame. Col("kuva_suurus")
var keskmine = aCol. Keskmine ()
var mediaan = aCol. Mediaan()
var miinimum = aCol. min()
var standardhälve = aCol. StdDev()
var maksimum = aCol. Max()
var kvantilid25 = aCol. Kvantiil(25.0)

Need meetodid peegeldavad kirjeldava statistilise analüüsi tulemusi, mida Describe teeb.

Elementide toomine veerus

Üks viimaseid ülesandeid, mida soovite teha, on kontrollida veerus olevaid väärtusi üldise ülevaate saamiseks. Võite kasutada Rekordid meetod veeru väärtuste vaatamiseks.

aCol := dataFrame. Col ("bränd")
fmt. Println (aCol. Rekordid())

See meetod tagastab stringide lõigu, mis sisaldab teie valitud veerus olevaid väärtusi:

Gota andmeraami eksportimine faili

Kui otsustate minna kaugemale ja kasutada täielikuks andmete analüüsiks Gota paketti, peate andmed failidesse salvestama. Võite kasutada Kirjutage CSV ja Kirjutage JSON andmeraami meetodid failide eksportimiseks. Meetodid võtavad faili, mille loote kasutades os pakendid Loo meetod.

Siit saate teada, kuidas saate Gota paketi abil andmeraami eksportida.

dataFrame := andmeraam. Lugege CSV(faili)
outputFile, err := os. Loo ("output.csv")

kui eks!= null {
logi. Saatuslik (viga)
}

err = dataFrame. Kirjuta CSV(väljundfail)

kui eks!= null {
logi. Fatalln("Andmeraami sisu faili kirjutamisel tekkis viga")
}

The dataFrame muutuja on andmeraami esitus. Kui kasutate Loo meetod os pakett, loob see määratud nimega uue tühja faili ja tagastab faili. WriteCSV-meetod võtab faili eksemplari ja tagastab veateate või null kui viga pole.

Uurimuslik andmete analüüs on oluline

Andmete ja andmekogumite mõistmine on andmeanalüütikute ja masinõppe spetsialistide jaoks hädavajalik. See on nende töötsüklis kriitiline toiming ja uurimuslik andmete analüüs on üks tehnikatest, mida nad selle saavutamiseks kasutavad.

Gota paketis on rohkem. Saate seda kasutada erinevate andmevahetuse funktsioonide jaoks samamoodi, nagu kasutaksite Python Pandase teeki andmete analüüsimiseks. Kuid Gota ei toeta nii palju funktsioone kui Pandas.