Pandade raamatukogu muudab pythonil põhineva andmeteaduse hõlpsaks kasutamise. See on populaarne Pythoni teek andmete lugemiseks, liitmiseks, sortimiseks, puhastamiseks ja muuks. Kuigi pandasid on lihtne kasutada ja andmehulkadele rakendada, on neil õppida palju andmetöötlusfunktsioone.

Võite kasutada pandasid, kuid on suur võimalus, et kasutate neid andmetega seotud probleemide lahendamiseks liiga vähe. Siin on meie nimekiri väärtuslikest andmetega manipuleerivatest pandafunktsioonidest, mida iga andmeteadlane peaks teadma.

Installige pandad oma virtuaalsesse keskkonda

Enne jätkamist installige pandad oma virtuaalsesse keskkonda, kasutades pip:

pip install pandad

Pärast installimist importige pandad skripti ülaosas ja jätkame.

1. pandad. DataFrame

Sa kasutad pandad. DataFrame() pandades DataFrame'i loomiseks. Selle funktsiooni kasutamiseks on kaks võimalust.

Saate moodustada DataFrame'i veerupõhiselt, edastades sõnastiku pandad. DataFrame() funktsiooni. Siin on iga võti veerg, väärtusteks aga read:

instagram viewer
import pandad
DataFrame = pandad. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
print (DataFrame)

Teine meetod on DataFrame'i moodustamine ridade kaupa. Kuid siin eraldate väärtused (reaüksused) veergudest. Andmete arv igas loendis (rea andmed) peab samuti ühtima veergude arvuga.

import pandad
DataFrame = pandad. DataFrame([[1, 4, 5], [7, 19, 13]], veerud= ["J", "K", "L"])
print (DataFrame)

2. Pandas lugege ja kirjutage Excelisse või CSV-sse

Pandadega saate Exceli või CSV-faile lugeda või neisse kirjutada.

Exceli või CSV-failide lugemine

Exceli faili lugemiseks tehke järgmist.

#Asenda example.xlsx oma Exceli faili teega
DataFrame = DataFrame.read_excel("example.xlsx")

CSV-faili lugemiseks tehke järgmist.

#Asenda example.csv oma CSV-faili teega
DataFrame = DataFrame.read_csv("example.csv")

Kirjutamine Excelisse või CSV-sse

Excelisse või CSV-sse kirjutamine on tuntud pandade toiming. Ja see on mugav äsja arvutatud tabelite salvestamiseks eraldi andmelehtedele.

Exceli lehele kirjutamiseks tehke järgmist.

DataFrame.to_excel("sihtkausta_täielik_tee/failinimi.xlsx")

Kui soovite kirjutada CSV-sse:

DataFrame.to_csv("sihtkausta_täielik_tee/failinimi.csv")

Pandade abil saate arvutada ka DataFrame'i iga veeru kesksed tendentsid.

Iga veeru keskmise väärtuse saamiseks tehke järgmist.

DataFrame.mean()

Mediaani või režiimi väärtuse jaoks asendage tähendab () koos mediaan() või mode ().

4. DataFrame.transform

pandad DataFrame.transform() muudab DataFrame'i väärtusi. See aktsepteerib funktsiooni argumendina.

Näiteks korrutab allolev kood iga DataFrame'i väärtuse kolmega, kasutades Pythoni lambda funktsioon:

DataFrame = DataFrame.transform (lambda y: y*3)
print (DataFrame)

5. DataFrame.isnull

See funktsioon tagastab Boole'i ​​väärtuse ja märgistab kõik nullväärtusi sisaldavad read kui Tõsi:

DataFrame.isnull()

Suuremate andmekogumite puhul võib ülaltoodud koodi tulemust olla raske lugeda. Nii et saate kasutada isnull().sum() funktsiooni asemel. See tagastab iga veeru kõigi puuduvate väärtuste kokkuvõtte:

DataFrame.isnull().sum()

6. Dataframe.info

The info() funktsioon on an oluline panda operatsioon. Selle asemel tagastab see iga veeru mittepuuduvate väärtuste kokkuvõtte:

DataFrame.info()

7. DataFrame.describe

The kirjelda () funktsioon annab teile DataFrame'i kokkuvõtliku statistika:

DataFrame.describe()

8. DataFrame.replace

Kasutades DataFrame.replace() Pandade meetodil saate valitud read asendada muude väärtustega.

Näiteks valede ridade vahetamiseks Nan:

# Selle toimimiseks veenduge, et installite pip install numpy
import numpy
import pandad
# Paigaldatud märksõna lisamine ja selle väärtuse määramine Tõene muudab muudatused püsivaks:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
print (DataFrame)

9. DataFrame.fillna

See funktsioon võimaldab teil täita tühjad read kindla väärtusega. Saate kõik täita Nan andmestiku read keskmise väärtusega, näiteks:

DataFrame.fillna (df.mean(), inplace = tõene)
print (DataFrame)

Võite olla ka veerupõhine:

DataFrame['veeru_nimi'].fillna (df[veeru_nimi].mean(), inplace = Tõene)
print (DataFrame)

10. DataFrame.dropna

The dropna () meetod eemaldab kõik nullväärtusi sisaldavad read:

DataFrame.dropna (inplace = tõene)
print (DataFrame)

11. DataFrame.insert

Võite kasutada pandasid insert () funktsioon DataFrame'i uue veeru lisamiseks. See aktsepteerib kolme märksõna veeru nimi, selle andmete loend ja selle asukoht, mis on veeru indeks.

See toimib järgmiselt.

DataFrame.insert (veerg = 'C', väärtus = [3, 4, 6, 7], loc=0)
print (DataFrame)

Ülaltoodud kood lisab uue veeru nulli veeru indeksisse (sellest saab esimene veerg).

12. DataFrame.loc

Sa võid kasutada loc elementide leidmiseks konkreetsest indeksist. Kõigi kolmanda rea ​​üksuste vaatamiseks toimige näiteks järgmiselt.

DataFrame.loc[2]

13. DataFrame.pop

See funktsioon võimaldab eemaldada Panda DataFrame'ist määratud veeru.

See aktsepteerib an üksus märksõna, tagastab hüppanud veeru ja eraldab selle ülejäänud DataFrame'ist:

DataFrame.pop (item= 'veeru_nimi')
print (DataFrame)

14. DataFrame.max, min

Maksimaalsete ja minimaalsete väärtuste saamine pandade abil on lihtne:

DataFrame.min()

Ülaltoodud kood tagastab iga veeru minimaalse väärtuse. Maksimaalse tulemuse saamiseks asendage min koos max.

15. DataFrame.join

The liitu () Pandade funktsioon võimaldab teil liita DataFrame erinevate veerunimedega. Võite kasutada vasakut, paremat, sisemist või välimist ühendust. DataFrame'i vasakpoolseks ühendamiseks kahe teisega tehke järgmist.

#Vasakule ühendage pikemad veerud lühematega
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
print (newDataFrame)

Sarnaste veerunimedega DataFrame'ide ühendamiseks saate neid eristada, lisades vasakule või paremale järelliide. Tehke seda, lisades lsufiks või rsliide märksõna:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
print (newDataFrame)

16. DataFrame.combine

The kombineeri () Funktsioon on kasulik kahe DataFrame'i liitmiseks, mis sisaldavad seatud kriteeriumide alusel sarnaseid veergude nimesid. See aktsepteerib a funktsiooni märksõna.

Näiteks kahe sarnase veerunimega DataFrame'i liitmiseks ainult maksimaalsete väärtuste alusel:

newDataFrame = df.combine (df2, numpy.minimum)
print (newDataFrame)

Märge: saate määrata ka kohandatud valikufunktsiooni ja sisestada tuim.minimaalne.

17. DataFrame.astype

The astype() funktsioon muudab konkreetse veeru või DataFrame'i andmetüüpi.

Kõigi DataFrame'i väärtuste muutmiseks stringiks toimige näiteks järgmiselt.

DataFrame.astype (str)

18. DataFrame.sum

The summa() funktsioon pandas tagastab iga veeru väärtuste summa:

DataFrame.sum()

Samuti leiate kõigi kasutatavate üksuste kumulatiivse summa cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pandad drop () funktsioon kustutab DataFrame'is teatud read või veerud. Selle kasutamiseks peate sisestama veergude nimed või reaindeksi ja telje.

Konkreetsete veergude eemaldamiseks tehke näiteks järgmist.

df.drop (columns=['veerg1', 'veerg2'], telg=0)

Näiteks ridade eemaldamiseks indeksitel 1, 3 ja 4:

df.drop([1, 3, 4], telg=0)

20. DataFrame.corr

Kas soovite leida korrelatsiooni täisarvude või ujukite veergude vahel? pandad aitavad teil seda saavutada kasutades korrekt() funktsioon:

DataFrame.corr()

Ülaltoodud kood tagastab uue DataFrame'i, mis sisaldab korrelatsioonijada kõigi täisarvude või ujukite veergude vahel.

21. DataFrame.add

The lisama() Funktsioon võimaldab lisada igale DataFrame'i väärtusele kindla numbri. See töötab DataFrame'i kaudu itereerides ja iga üksuse puhul.

Seotud:Kuidas kasutada Pythonis silmuseid

Näiteks 20 lisamiseks igale väärtusele konkreetses täisarve või ujukid sisaldavas veerus:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Sarnaselt liitmisfunktsiooniga saate ka DataFrame'i või konkreetse veeru igast väärtusest arvu lahutada.

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

See on pandade liitmisfunktsiooni korrutusversioon:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Samamoodi saate iga andmepunkti veerus või DataFrame'is jagada kindla arvuga:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Kasutades std() Pandas võimaldab teil arvutada ka DataFrame'i iga veeru standardhälbe. See toimib, korrates andmestiku iga veergu ja arvutades iga veeru standardhälbe:

DataFrame.std()

26. DataFrame.sort_values

Samuti saate väärtusi konkreetse veeru alusel järjestada kasvavalt või kahanevalt. Näiteks DataFrame'i sortimiseks kahanevas järjekorras tehke järgmist.

newDataFrame = DataFrame.sort_values ​​(alusel = "colmun_name", kahanevalt = Tõene)

27. DataFrame.melt

The sulama () funktsioon pandas pöörab DataFrame'i veerud üksikuteks ridadeks. See on nagu DataFrame'i anatoomia paljastamine. Seega saate vaadata igale veerule määratud väärtust.

newDataFrame = DataFrame.melt()

28. DataFrame.count

See funktsioon tagastab üksuste koguarvu igas veerus:

DataFrame.count()

29. DataFrame.query

pandad query() võimaldab helistada üksustele, kasutades nende indeksinumbrit. Näiteks kolmanda rea ​​üksuste hankimiseks tehke järgmist.

DataFrame.query('4') # Helista päringule neljandas indeksis

30. DataFrame.where

The kus () Funktsioon on panda päring, mis aktsepteerib veerus kindlate väärtuste hankimise tingimust. Näiteks selleks, et saada kõik alla 30-aastased vanused alates Vanus veerg:

DataFrame.where (DataFrame['Age'] < 30)

Ülaltoodud kood väljastab DataFrame'i, mis sisaldab kõiki vanuseid alla 30, kuid määrab Nan ridadele, mis tingimusele ei vasta.

Käsitsege andmeid pandadega nagu professionaal

pandas on funktsioonide ja meetodite aare, mille abil saab Pythoniga haldada väikeseid kuni suuremahulisi andmekogumeid. Teek on kasulik ka andmete puhastamiseks, valideerimiseks ja analüüsiks või masinõppeks ettevalmistamiseks.

Kui võtate selle omandamiseks aega, muudab see teie elu andmeteadlasena kindlasti lihtsamaks ja see on seda pingutust väärt. Nii et võite vabalt valida kõik funktsioonid, millega saate hakkama.

20 Pythoni funktsiooni, mida peaksite teadma

Pythoni standardteek sisaldab palju funktsioone, mis aitavad teie programmeerimisülesandeid täita. Lugege kõige kasulikumate kohta ja looge tugevam kood.

Loe edasi

JagaSäutsMeil
Seotud teemad
  • Programmeerimine
  • Python
  • Programmeerimine
  • andmebaasi
Autori kohta
Idowu Omisola (123 avaldatud artiklit)

Idowu on kirglik kõige nutika tehnoloogia ja tootlikkuse vastu. Vabal ajal mängib ta ringi kodeerimisega ja lülitub igavlemisel malelauale, kuid armastab ka aeg-ajalt rutiinist lahti murda. Tema kirg näidata inimestele teed kaasaegses tehnikas motiveerib teda rohkem kirjutama.

Veel Idowu Omisolalt

Liituge meie uudiskirjaga

Liituge meie uudiskirjaga tehniliste näpunäidete, arvustuste, tasuta e-raamatute ja eksklusiivsete pakkumiste saamiseks!

Tellimiseks klõpsake siin