Pandade raamatukogu muudab pythonil põhineva andmeteaduse hõlpsaks kasutamise. See on populaarne Pythoni teek andmete lugemiseks, liitmiseks, sortimiseks, puhastamiseks ja muuks. Kuigi pandasid on lihtne kasutada ja andmehulkadele rakendada, on neil õppida palju andmetöötlusfunktsioone.
Võite kasutada pandasid, kuid on suur võimalus, et kasutate neid andmetega seotud probleemide lahendamiseks liiga vähe. Siin on meie nimekiri väärtuslikest andmetega manipuleerivatest pandafunktsioonidest, mida iga andmeteadlane peaks teadma.
Installige pandad oma virtuaalsesse keskkonda
Enne jätkamist installige pandad oma virtuaalsesse keskkonda, kasutades pip:
pip install pandad
Pärast installimist importige pandad skripti ülaosas ja jätkame.
1. pandad. DataFrame
Sa kasutad pandad. DataFrame() pandades DataFrame'i loomiseks. Selle funktsiooni kasutamiseks on kaks võimalust.
Saate moodustada DataFrame'i veerupõhiselt, edastades sõnastiku pandad. DataFrame() funktsiooni. Siin on iga võti veerg, väärtusteks aga read:
import pandad
DataFrame = pandad. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
print (DataFrame)
Teine meetod on DataFrame'i moodustamine ridade kaupa. Kuid siin eraldate väärtused (reaüksused) veergudest. Andmete arv igas loendis (rea andmed) peab samuti ühtima veergude arvuga.
import pandad
DataFrame = pandad. DataFrame([[1, 4, 5], [7, 19, 13]], veerud= ["J", "K", "L"])
print (DataFrame)
2. Pandas lugege ja kirjutage Excelisse või CSV-sse
Pandadega saate Exceli või CSV-faile lugeda või neisse kirjutada.
Exceli või CSV-failide lugemine
Exceli faili lugemiseks tehke järgmist.
#Asenda example.xlsx oma Exceli faili teega
DataFrame = DataFrame.read_excel("example.xlsx")
CSV-faili lugemiseks tehke järgmist.
#Asenda example.csv oma CSV-faili teega
DataFrame = DataFrame.read_csv("example.csv")
Kirjutamine Excelisse või CSV-sse
Excelisse või CSV-sse kirjutamine on tuntud pandade toiming. Ja see on mugav äsja arvutatud tabelite salvestamiseks eraldi andmelehtedele.
Exceli lehele kirjutamiseks tehke järgmist.
DataFrame.to_excel("sihtkausta_täielik_tee/failinimi.xlsx")
Kui soovite kirjutada CSV-sse:
DataFrame.to_csv("sihtkausta_täielik_tee/failinimi.csv")
Pandade abil saate arvutada ka DataFrame'i iga veeru kesksed tendentsid.
Iga veeru keskmise väärtuse saamiseks tehke järgmist.
DataFrame.mean()
Mediaani või režiimi väärtuse jaoks asendage tähendab () koos mediaan() või mode ().
4. DataFrame.transform
pandad DataFrame.transform() muudab DataFrame'i väärtusi. See aktsepteerib funktsiooni argumendina.
Näiteks korrutab allolev kood iga DataFrame'i väärtuse kolmega, kasutades Pythoni lambda funktsioon:
DataFrame = DataFrame.transform (lambda y: y*3)
print (DataFrame)
5. DataFrame.isnull
See funktsioon tagastab Boole'i väärtuse ja märgistab kõik nullväärtusi sisaldavad read kui Tõsi:
DataFrame.isnull()
Suuremate andmekogumite puhul võib ülaltoodud koodi tulemust olla raske lugeda. Nii et saate kasutada isnull().sum() funktsiooni asemel. See tagastab iga veeru kõigi puuduvate väärtuste kokkuvõtte:
DataFrame.isnull().sum()
6. Dataframe.info
The info() funktsioon on an oluline panda operatsioon. Selle asemel tagastab see iga veeru mittepuuduvate väärtuste kokkuvõtte:
DataFrame.info()
7. DataFrame.describe
The kirjelda () funktsioon annab teile DataFrame'i kokkuvõtliku statistika:
DataFrame.describe()
8. DataFrame.replace
Kasutades DataFrame.replace() Pandade meetodil saate valitud read asendada muude väärtustega.
Näiteks valede ridade vahetamiseks Nan:
# Selle toimimiseks veenduge, et installite pip install numpy
import numpy
import pandad
# Paigaldatud märksõna lisamine ja selle väärtuse määramine Tõene muudab muudatused püsivaks:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
print (DataFrame)
9. DataFrame.fillna
See funktsioon võimaldab teil täita tühjad read kindla väärtusega. Saate kõik täita Nan andmestiku read keskmise väärtusega, näiteks:
DataFrame.fillna (df.mean(), inplace = tõene)
print (DataFrame)
Võite olla ka veerupõhine:
DataFrame['veeru_nimi'].fillna (df[veeru_nimi].mean(), inplace = Tõene)
print (DataFrame)
10. DataFrame.dropna
The dropna () meetod eemaldab kõik nullväärtusi sisaldavad read:
DataFrame.dropna (inplace = tõene)
print (DataFrame)
11. DataFrame.insert
Võite kasutada pandasid insert () funktsioon DataFrame'i uue veeru lisamiseks. See aktsepteerib kolme märksõna veeru nimi, selle andmete loend ja selle asukoht, mis on veeru indeks.
See toimib järgmiselt.
DataFrame.insert (veerg = 'C', väärtus = [3, 4, 6, 7], loc=0)
print (DataFrame)
Ülaltoodud kood lisab uue veeru nulli veeru indeksisse (sellest saab esimene veerg).
12. DataFrame.loc
Sa võid kasutada loc elementide leidmiseks konkreetsest indeksist. Kõigi kolmanda rea üksuste vaatamiseks toimige näiteks järgmiselt.
DataFrame.loc[2]
13. DataFrame.pop
See funktsioon võimaldab eemaldada Panda DataFrame'ist määratud veeru.
See aktsepteerib an üksus märksõna, tagastab hüppanud veeru ja eraldab selle ülejäänud DataFrame'ist:
DataFrame.pop (item= 'veeru_nimi')
print (DataFrame)
14. DataFrame.max, min
Maksimaalsete ja minimaalsete väärtuste saamine pandade abil on lihtne:
DataFrame.min()
Ülaltoodud kood tagastab iga veeru minimaalse väärtuse. Maksimaalse tulemuse saamiseks asendage min koos max.
15. DataFrame.join
The liitu () Pandade funktsioon võimaldab teil liita DataFrame erinevate veerunimedega. Võite kasutada vasakut, paremat, sisemist või välimist ühendust. DataFrame'i vasakpoolseks ühendamiseks kahe teisega tehke järgmist.
#Vasakule ühendage pikemad veerud lühematega
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
print (newDataFrame)
Sarnaste veerunimedega DataFrame'ide ühendamiseks saate neid eristada, lisades vasakule või paremale järelliide. Tehke seda, lisades lsufiks või rsliide märksõna:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
print (newDataFrame)
16. DataFrame.combine
The kombineeri () Funktsioon on kasulik kahe DataFrame'i liitmiseks, mis sisaldavad seatud kriteeriumide alusel sarnaseid veergude nimesid. See aktsepteerib a funktsiooni märksõna.
Näiteks kahe sarnase veerunimega DataFrame'i liitmiseks ainult maksimaalsete väärtuste alusel:
newDataFrame = df.combine (df2, numpy.minimum)
print (newDataFrame)
Märge: saate määrata ka kohandatud valikufunktsiooni ja sisestada tuim.minimaalne.
17. DataFrame.astype
The astype() funktsioon muudab konkreetse veeru või DataFrame'i andmetüüpi.
Kõigi DataFrame'i väärtuste muutmiseks stringiks toimige näiteks järgmiselt.
DataFrame.astype (str)
18. DataFrame.sum
The summa() funktsioon pandas tagastab iga veeru väärtuste summa:
DataFrame.sum()
Samuti leiate kõigi kasutatavate üksuste kumulatiivse summa cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pandad drop () funktsioon kustutab DataFrame'is teatud read või veerud. Selle kasutamiseks peate sisestama veergude nimed või reaindeksi ja telje.
Konkreetsete veergude eemaldamiseks tehke näiteks järgmist.
df.drop (columns=['veerg1', 'veerg2'], telg=0)
Näiteks ridade eemaldamiseks indeksitel 1, 3 ja 4:
df.drop([1, 3, 4], telg=0)
20. DataFrame.corr
Kas soovite leida korrelatsiooni täisarvude või ujukite veergude vahel? pandad aitavad teil seda saavutada kasutades korrekt() funktsioon:
DataFrame.corr()
Ülaltoodud kood tagastab uue DataFrame'i, mis sisaldab korrelatsioonijada kõigi täisarvude või ujukite veergude vahel.
21. DataFrame.add
The lisama() Funktsioon võimaldab lisada igale DataFrame'i väärtusele kindla numbri. See töötab DataFrame'i kaudu itereerides ja iga üksuse puhul.
Seotud:Kuidas kasutada Pythonis silmuseid
Näiteks 20 lisamiseks igale väärtusele konkreetses täisarve või ujukid sisaldavas veerus:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Sarnaselt liitmisfunktsiooniga saate ka DataFrame'i või konkreetse veeru igast väärtusest arvu lahutada.
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
See on pandade liitmisfunktsiooni korrutusversioon:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
Samamoodi saate iga andmepunkti veerus või DataFrame'is jagada kindla arvuga:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Kasutades std() Pandas võimaldab teil arvutada ka DataFrame'i iga veeru standardhälbe. See toimib, korrates andmestiku iga veergu ja arvutades iga veeru standardhälbe:
DataFrame.std()
26. DataFrame.sort_values
Samuti saate väärtusi konkreetse veeru alusel järjestada kasvavalt või kahanevalt. Näiteks DataFrame'i sortimiseks kahanevas järjekorras tehke järgmist.
newDataFrame = DataFrame.sort_values (alusel = "colmun_name", kahanevalt = Tõene)
27. DataFrame.melt
The sulama () funktsioon pandas pöörab DataFrame'i veerud üksikuteks ridadeks. See on nagu DataFrame'i anatoomia paljastamine. Seega saate vaadata igale veerule määratud väärtust.
newDataFrame = DataFrame.melt()
28. DataFrame.count
See funktsioon tagastab üksuste koguarvu igas veerus:
DataFrame.count()
29. DataFrame.query
pandad query() võimaldab helistada üksustele, kasutades nende indeksinumbrit. Näiteks kolmanda rea üksuste hankimiseks tehke järgmist.
DataFrame.query('4') # Helista päringule neljandas indeksis
30. DataFrame.where
The kus () Funktsioon on panda päring, mis aktsepteerib veerus kindlate väärtuste hankimise tingimust. Näiteks selleks, et saada kõik alla 30-aastased vanused alates Vanus veerg:
DataFrame.where (DataFrame['Age'] < 30)
Ülaltoodud kood väljastab DataFrame'i, mis sisaldab kõiki vanuseid alla 30, kuid määrab Nan ridadele, mis tingimusele ei vasta.
Käsitsege andmeid pandadega nagu professionaal
pandas on funktsioonide ja meetodite aare, mille abil saab Pythoniga haldada väikeseid kuni suuremahulisi andmekogumeid. Teek on kasulik ka andmete puhastamiseks, valideerimiseks ja analüüsiks või masinõppeks ettevalmistamiseks.
Kui võtate selle omandamiseks aega, muudab see teie elu andmeteadlasena kindlasti lihtsamaks ja see on seda pingutust väärt. Nii et võite vabalt valida kõik funktsioonid, millega saate hakkama.
Pythoni standardteek sisaldab palju funktsioone, mis aitavad teie programmeerimisülesandeid täita. Lugege kõige kasulikumate kohta ja looge tugevam kood.
Loe edasi
- Programmeerimine
- Python
- Programmeerimine
- andmebaasi
Idowu on kirglik kõige nutika tehnoloogia ja tootlikkuse vastu. Vabal ajal mängib ta ringi kodeerimisega ja lülitub igavlemisel malelauale, kuid armastab ka aeg-ajalt rutiinist lahti murda. Tema kirg näidata inimestele teed kaasaegses tehnikas motiveerib teda rohkem kirjutama.
Liituge meie uudiskirjaga
Liituge meie uudiskirjaga tehniliste näpunäidete, arvustuste, tasuta e-raamatute ja eksklusiivsete pakkumiste saamiseks!
Tellimiseks klõpsake siin