Kasutage PandasAI Pythoni teeki tehisintellekti ja suurte keelemudelite võimsuse ärakasutamiseks andmeanalüüsi ülesannete täitmiseks.
Pandad on andmekogude ja andmeraamide manipuleerimiseks kõige domineerivam raamatukogu. See on juba pikka aega olnud norm. Kuid tehisintellekti edenedes töötatakse välja uus avatud lähtekoodiga raamatukogu nimega PandasAI, mis lisab Pandadele generatiivseid AI-võimalusi.
PandasAI ei asenda Pandasid. Selle asemel annab see oma generatiivsed AI-võimalused. Nii saate PandasAI-ga vesteldes andmeanalüüsi teha. Seejärel teeb see taustal toimuva abstraktsiooni ja annab teile päringu väljundi.
PandasAI installimine
PandasAI on saadaval PyPI (Python Package Index) kaudu. Looge uus virtuaalne keskkond kui kasutate kohalikku IDE-d. Siis kasutage pip paketihaldurit selle installimiseks.
pip install pandasai
Kui kasutate Google Colabi, võite ilmneda sõltuvuse konflikti tõrge, mis on sarnane allpool näidatud veaga.
Ärge viige IPythoni versiooni madalamale versioonile. Taaskäivitage lihtsalt käitusaeg ja käivitage koodiplokk uuesti. See lahendab probleemi.
Täielik lähtekood on saadaval a GitHubi hoidla.
Näidisandmestiku mõistmine
Näidisandmekogum, mida PandasAI-ga manipuleerite, on California eluasemehindade andmestik, mis on pärit Kaggle'ist. See andmestik sisaldab teavet 1990. aasta California rahvaloenduse eluaseme kohta. Sellel on kümme veergu, mis annavad nende majade kohta statistikat. Andmekaart, mis aitab teil selle andmekogumi kohta rohkem teada saada, on saadaval aadressil Kaggle. Allpool on andmestiku esimesed viis rida.
Iga veerg esindab üht maja statistikat.
PandasAI ühendamine suure keelemudeliga
PandasAI ühendamiseks a suur keelemudel (LLM) nagu OpenAI puhul, vajate juurdepääsu selle API võtmele. Selle hankimiseks jätkake jaotisega OpenAI platvorm. Seejärel logige oma kontole sisse. Valige API järgmisena ilmuva valikute lehe all.
Pärast seda klõpsake oma profiilil ja valige Vaadake API võtmeid valik. Järgmisena kuvataval lehel klõpsake Looge uus salajane võti nuppu. Lõpuks nimetage oma API-võti.
OpenAI loob teie API võtme. Kopeerige see PandasAI OpenAI-ga ühendamisel, kui seda vajate. Hoidke võtit kindlasti saladuses, sest igaüks, kellel on sellele juurdepääs, saab teie nimel OpenAI-le helistada. Seejärel võtab OpenAI teie kontolt kõnede eest tasu.
Nüüd, kui teil on API võti, looge uus Pythoni skript ja kleepige allolev kood. Te ei pea seda koodi muutma, kuna enamasti kasutate seda.
importida pandad nagu pd
alates pandasai importida PandasAI# Asendage oma andmestiku või andmeraamiga
df = pd.read_csv("/content/housing.csv")# Looge LLM
alates pandasai.llm.openai importida OpenAI
llm = OpenAI(api_token="teie API luba")
pandas_ai = PandasAI(llm)
Ülaltoodud kood impordib nii PandasAI-d kui ka Pandasid. Seejärel loeb see andmestikku. Lõpuks loob see OpenAI LLM-i.
Nüüd olete valmis oma andmetega vestlema.
Lihtsate ülesannete täitmine PandasAI abil
Oma andmete päringu tegemiseks edastage oma andmeraam ja viip PandasAI klassi eksemplarile. Alustuseks printige andmestiku esimesed viis rida.
pandas_ai (df, prompt="Mis on andmestiku esimesed viis rida?")
Ülaltoodud viipa väljund on järgmine:
See väljund on identne varasema andmestiku ülevaatega. See näitab, et PandasAI annab õigeid tulemusi ja on usaldusväärne.
Seejärel kontrollige andmekogus olevate veergude arvu.
pandas_ai (df, prompt=„Mitu veergu on andmekogumis? ')
See tagastab 10, mis on California eluasemeandmestiku õige veergude arv.
Kontrollimine, kas andmekogus pole väärtusi.
pandas_ai (df, prompt="Kas andmekogus on mingeid väärtusi puudu?")
PandasAI tagastab, et kokku_magamistoad veerus on 207 puuduvat väärtust, mis on jällegi õige.
PandasAI abil saate saavutada palju lihtsaid ülesandeid, kuid te ei piirdu ülaltoodud ülesannetega.
Keeruliste päringute sooritamine PandasAI abil
PandasAI ei toeta ainult lihtsaid ülesandeid. Samuti saate seda kasutada andmestiku keerukate päringute tegemiseks. Näiteks kui soovite määrata elamute andmekogus asuvate majade arvu saarel, mille väärtus on üle 100 000 dollari ja kus on rohkem kui 10 tuba, mida saate kasutada allpool.
pandas_ai (df, prompt= "Mitu maja väärtus on suurem kui 100 000"
"Kas asuvad saarel ja magamistubade koguarv on üle 10?")
Õige väljund on viis. See on sama tulemus, mille PandasAI väljastab.
Keeruliste päringute kirjutamine ja silumine võib andmeanalüütil veidi aega võtta. Ülaltoodud viip võtab sama ülesande täitmiseks ainult kaks rida loomulikku keelt. Peate lihtsalt meeles pidama, mida täpselt soovite saavutada, ja PandasAI hoolitseb ülejäänu eest.
Diagrammide joonistamine PandasAI abil
Diagrammid on iga andmeanalüüsi protsessi oluline osa. See aitab andmeanalüütikutel andmeid inimsõbralikul viisil visualiseerida. PandasAI-l on ka diagrammi joonistamise funktsioon. Peate lihtsalt andmeraami ja juhise edastama.
Alustuseks looge andmestiku iga veeru jaoks histogramm. See aitab teil visualiseerida muutujate jaotust.
pandas_ai (df, prompt= "Andmestiku iga veeru histogrammi joonistamine")
Väljund on järgmine:
PandasAI suutis joonistada kõigi veergude histogrammi, ilma et oleks pidanud nende nimesid viipale edastama.
PandasAI saab diagramme koostada ka ilma, et te talle selgesõnaliselt ütleksite, millist diagrammi kasutada. Näiteks võite soovida välja selgitada eluasemeandmestiku andmete korrelatsiooni. Selle saavutamiseks võite edastada viipa järgmiselt.
pandas_ai (df, prompt= "Joonistage korrelatsioon andmekogumis")
PandasAI joonistab korrelatsioonimaatriksi, nagu allpool näidatud:
Raamatukogu valib soojuskaardi ja joonistab korrelatsioonimaatriksi.
Mitme andmekaadri edastamine PandasAI eksemplarile
Mitme andmeraamiga töötamine võib olla keeruline. Eriti inimesele, kellele andmeanalüüs on uus. PandasAI ületab selle lünga, kuna peate vaid läbima mõlemad andmeraamid ja hakkama andmetega manipuleerimiseks viipasid kasutama.
Looge Pandade abil kaks andmeraami.
töötajate_andmed = {
'Töötaja ID': [1, 2, 3, 4, 5],
'nimi': ["John", "Emma", "Liam", "Olivia", "William"],
'osakond': ["HR", "Müük", 'IT', "Turundus", "Finants"]
}palkade_andmed = {
'Töötaja ID': [1, 2, 3, 4, 5],
'palk': [5000, 6000, 4500, 7000, 5500]
}
töötajad_df = pd. DataFrame (töötajate_andmed)
palgad_df = pd. DataFrame (palgade_andmed)
Võite esitada PandasAI-le küsimuse, mis läbib mõlemat andmeraami. Peate PandasAI eksemplarile edastama ainult mõlemad andmeraamid.
pandas_ai([töötajate_df, palgad_df], "Millise töötaja palk on suurim?")
See naaseb Olivia mis on jällegi õige vastus.
Andmete analüüsimine pole kunagi olnud lihtsam, PandasAI võimaldab teil oma andmetega vestelda ja neid hõlpsalt analüüsida.
PandasAI-d toetava tehnoloogia mõistmine
PandasAI lihtsustab andmeanalüüsi protsessi, säästes andmeanalüütikute jaoks palju aega. Kuid see abstraheerib taustal toimuvat. Peate end kurssi viima generatiivse tehisintellektiga, et saaksite ülevaate PandasAI toimimisest kapoti all. See aitab teil kursis olla ka generatiivse AI-valdkonna uusimate uuendustega.