Kui kasutate Pythonit isegi kõige lihtsamate ülesannete jaoks, olete tõenäoliselt teadlik selle kolmandate osapoolte teekide tähtsusest. Pandase teek koos suurepärase DataFramesi toega on üks selline raamatukogu.

Saate Python DataFramesi importida mitut tüüpi faile ja luua erinevaid versioone erinevate andmekogumite salvestamiseks. Kui olete andmed DataFrame'i abil importinud, saate need üksikasjaliku analüüsi tegemiseks liita.

Põhitõdedega tegelemine

Enne ühendamise alustamist peavad ühendamiseks olema DataFrames. Arendamise eesmärgil saate katsetamiseks luua näivaid andmeid.

Looge Pythonis andmeraamid

Esimese sammuna importige Pandase teek oma Pythoni faili. Pandas on kolmanda osapoole teek, mis käsitleb Pythonis DataFrame'e. Võite kasutada importida avaldus raamatukogu kasutamiseks järgmiselt:

importida pandad nagu pd

Koodiviitete lühendamiseks saate raamatukogu nimele määrata varjunime.

Peate looma sõnastikke, mille saate teisendada DataFrame'ideks. Parimate tulemuste saamiseks looge sõnastikus kaks muutujat –dikt1 ja dikt2-konkreetse teabe salvestamiseks:

instagram viewer
dikt1 = {"kasutaja ID": ["001", "002", "003", "004", "005"],
"FName": ["John", "Brad", "Ron", "Roald", "Chris"],
"LNimi": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dikt2 = {"kasutaja ID": ["001", "002", "003", "004"], "Vanus": [15, 28, 34, 24]}

Pidage meeles, et teil peab mõlemas sõnastikuväärtuses olema ühine element, mis toimiks hiljem DataFrame'ide kombineerimise esmase võtmena.

Teisendage oma sõnaraamatud andmeraamideks

Sõnastiku väärtuste teisendamiseks DataFrame'ideks saate kasutada järgmist meetodit.

df1 = pd. DataFrame (dict1)
df2 = pd. DataFrame (dict2)

Mõned IDE-d võimaldavad teil kontrollida DataFrame'i väärtusi, viidates funktsioonile DataFrame ja vajutades Käivita/käita. Seal on palju Pythoniga ühilduvad IDE-d, et saaksite valida selle, mida on teile kõige lihtsam õppida.

Kui olete oma DataFrame'i sisuga rahul, võite liikuda liitmisetapi juurde.

Raamide kombineerimine liitmisfunktsiooniga

Ühendamisfunktsioon on esimene Pythoni funktsioon, mida saate kasutada kahe DataFrame'i ühendamiseks. See funktsioon võtab järgmised vaikeargumendid:

pd.merge (DataFrame1, DataFrame2, how= tüüpkohtaliita)

Kus:

  • pd on Pandase raamatukogu varjunimi.
  • liita on funktsioon, mis ühendab DataFrames.
  • Andmeraam1 ja Andmeraam2 on kaks DataFrame'i, mis tuleb ühendada.
  • kuidas määrab liitmise tüübi.

Saadaval on mõned täiendavad valikulised argumendid, mida saate kasutada keerulise andmestruktuuri korral.

Teostatava liitmise tüübi määratlemiseks saate parameetri how jaoks kasutada erinevaid väärtusi. Seda tüüpi liitmised on teile tuttavad kasutas andmebaasi tabelite ühendamiseks SQL-i.

Vasakpoolne ühendamine

Vasakpoolne liitmistüüp jätab esimese DataFrame'i väärtused puutumatuks ja tõmbab sobivad väärtused teisest DataFrame'ist.

Õige ühendamine

Õige liitmistüüp jätab teise DataFrame'i väärtused puutumatuks ja tõmbab esimesest DataFrame'ist sobivad väärtused.

Sisemine sulandumine

Sisemine liitmistüüp säilitab mõlema DataFrame'i ühtivad väärtused ja eemaldab mittevastavad väärtused.

Väline liitmine

Välimine liitmistüüp säilitab kõik sobivad ja mittevastavad väärtused ning koondab andmeraamid kokku.

Kuidas kasutada funktsiooni Concat

The concat funktsioon on paindlik valik võrreldes mõne Pythoni teiste liitmisfunktsioonidega. Concat funktsiooniga saate DataFrame'i vertikaalselt ja horisontaalselt kombineerida.

Selle funktsiooni kasutamise puuduseks on aga see, et see jätab vaikimisi kõrvale kõik mittevastavad väärtused. Sarnaselt mõnele teisele seotud funktsioonile on sellel funktsioonil mõned argumendid, millest vaid vähesed on edukaks ühendamiseks hädavajalikud.

concat (andmeraamid, telg=0, liitu='välimine'/sisemine)

Kus:

  • concat on funktsioon, mis ühendab DataFrames.
  • andmeraamid on andmeraamide jada ühendamiseks.
  • telg tähistab konkatenatsiooni suunda, 0 on horisontaalne, 1 on vertikaalne.
  • liituda määrab kas välimise või sisemise ühenduse.

Kasutades ülaltoodud kahte DataFrame'i, saate proovida concat funktsiooni järgmiselt:

# määrake andmeraamid loendivormingus
df_merged_concat = pd.concat([df1, df2])

# printige funktsiooni Concat tulemused
printida(df_merged_concat)

Telje- ja liitargumentide puudumine ülaltoodud koodis ühendab need kaks andmekogumit. Saadud väljundis on kõik kirjed, olenemata vaste olekust.

Samamoodi saate concat-funktsiooni suuna ja väljundi juhtimiseks kasutada täiendavaid argumente.

Väljundi juhtimiseks kõigi sobivate kirjetega:

# Kõigi kattuvate väärtuste ühendamine kahe andmekaadri vahel nende veergude alusel
df_merged_concat = pd.concat([df1, df2], telg=1, liitu = 'sisemine')

printida(df_merged_concat)

Tulemus sisaldab ainult kõiki kahe DataFrame'i vahelisi ühtivaid väärtusi.

Andmeraamide ühendamine Pythoniga

DataFrames on Pythoni lahutamatu osa, arvestades nende paindlikkust ja funktsionaalsust. Arvestades nende mitmekülgset kasutust, saate neid laialdaselt kasutada mitmesuguste ülesannete ülima hõlpsaks täitmiseks.

Kui alles õpite Python DataFramesi kohta, proovige importida mõned Exceli failid ja seejärel kombineerida neid erinevate lähenemisviisidega.