Selle tööriistakomplekti abil töötage välja ja võrrelge tugevdamise õppe algoritme.

Kui te ei saa masinõppemudelit nullist üles ehitada või teil puudub infrastruktuur, parandab tühimiku lihtsalt rakenduse ühendamine toimiva mudeliga.

Tehisintellekt on siin, et kõik saaksid nii või teisiti kasutada. Mis puudutab OpenAI Gym, siis seal on palju uuritavaid treeningväljakuid, et toita oma tugevdusõppe agente.

Mis on OpenAI Gym, kuidas see töötab ja mida saate selle abil ehitada?

Mis on OpenAI jõusaal?

OpenAI Gym on Pythonic API, mis pakub simuleeritud treeningkeskkondi tugevdavatele õppeagentidele keskkonnavaatluste põhjal tegutsemiseks; iga toiminguga kaasneb positiivne või negatiivne tasu, mis koguneb igal ajaetapil. Kuigi agendi eesmärk on maksimeerida tasusid, karistatakse teda iga ootamatu otsuse eest.

Ajasamm on diskreetne ajavahemik, mille jooksul keskkond jõuab teise olekusse. See lisandub, kui agendi tegevused muudavad keskkonna olekut.

Kuidas OpenAI jõusaal töötab?

OpenAI Gym keskkonnad põhinevad Markovi otsustusprotsessil (MDP), dünaamilisel otsustusmudelil, mida kasutatakse tugevdamisõppes. Seega järeldub, et hüved tulevad alles siis, kui keskkond muudab olekut. Ja sündmused järgmises olekus sõltuvad ainult praegusest olekust, kuna MDP ei võta arvesse minevikusündmusi.

instagram viewer

Enne edasi liikumist sukeldume näitesse, et saada kiiresti aru OpenAI Gym'i rakendusest tugevdusõppes.

Eeldades, et kavatsete treenida autot võidusõidumängus, saate OpenAI Gymis hipodroomil üles keerutada. Kui sõiduk pöörab tugevdusõppes vasakule asemel paremale, võib see saada negatiivse tasu -1. Võistlusrada muutub igal ajaetapil ja võib järgmistes olekutes muutuda keerulisemaks.

Negatiivsed preemiad või karistused ei ole tugevdamisõppe agendi jaoks halvad. Mõnel juhul julgustab see seda oma eesmärki kiiremini saavutama. Seega õpib auto aja jooksul rada tundma ja omandab selle navigeerimise, kasutades auhinnarida.

Näiteks algatasime FrozenLake-v1 keskkond, kus agenti karistatakse jääauku kukkumise eest, kuid premeeritakse kinkekarbi kättesaamise eest.

Meie esimene jooks andis vähem karistusi ilma preemiateta:

Kolmas iteratsioon tekitas aga keerulisema keskkonna. Kuid agent sai mõned preemiad:

Ülaltoodud tulemus ei tähenda, et agent järgmises iteratsioonis paraneks. Kuigi see võib järgmisel korral edukalt rohkem auke vältida, ei pruugi see tasu saada. Kuid mõne parameetri muutmine võib selle õppimiskiirust parandada.

OpenAI jõusaali komponendid

OpenAI Gym API keerleb järgmiste komponentide ümber:

  • The keskkondades kus koolitate agenti. Saate selle algatada, kasutades jõusaal.make meetod. OpenAI Gym toetab ka mitme agendi keskkondi.
  • The ümbrised olemasoleva keskkonna muutmiseks. Kuigi iga põhikeskkond on vaikimisi eelnevalt pakitud, saate selle skaleerida parameetritega, nagu max_actions, min_actions ja max rewards.
  • An tegevust; määratleb, mida agent teeb, kui ta jälgib muutusi oma keskkonnas. Iga tegevus keskkonnas on samm, mis määratleb agendi vastuse vaatlustele. Sammu lõpetamine tagastab vaatluse, preemia, teabe ja kärbi- või lõpetamisväärtuse.
  • The vaatlus; määratleb agendi kogemuse keskkonnas. Kui vaatlus on tehtud, järgneb tegevus koos selle teabega. Teabe parameeter on täitmislogi, mis on mugav silumiseks. Kui samm on lõppenud, lähtestatakse keskkond olenevalt määratud iteratsioonide arvust n korda.

Mida saate OpenAI jõusaaliga teha?

Kuna OpenAI Gym võimaldab teil luua kohandatud õpikeskkondi, on siin mõned viisid selle kasutamiseks päriselus.

1. Mängu simulatsioon

Saate kasutada OpenAI Gymi mängukeskkondi, et premeerida soovitud käitumist, luua mängupreemiaid ja suurendada mängutaseme keerukust.

2. Pildituvastus

Kui andmeid, ressursse ja aega on piiratud, võib OpenAI Gym olla mugav pildituvastussüsteemi arendamiseks. Sügavamal tasandil saate seda skaleerida, et luua näotuvastussüsteem, mis premeerib agenti nägude õige tuvastamise eest.

3. Robotikoolitus

OpenAI Gym pakub ka intuitiivseid keskkonnamudeleid 3D- ja 2D-simulatsioonide jaoks, kus saate soovitud käitumisi robotitesse rakendada. Robokool on näide skaleeritud roboti simulatsioonitarkvarast, mis on loodud OpenAI Gymi abil.

4. Turundus

OpenAI Gym'i abil saate luua ka turunduslahendusi, nagu reklaamiserverid, aktsiakauplemisbotid, müügiennustusrobotid, tootesoovitussüsteemid ja palju muud. Näiteks saate luua kohandatud OpenAI Gym mudeli, mis karistab reklaame näitamiste ja klikkide määra alusel.

5. Loomuliku keele töötlemine

Mõned võimalused OpenAI Gym'i rakendamiseks loomuliku keele töötlemine on valikvastustega küsimused, mis hõlmavad lause lõpetamist või rämpsposti klassifikaatori ehitamine. Näiteks saate õpetada agenti õppima lause variatsioone, et vältida osalejate märgistamise ajal eelarvamusi.

Kuidas OpenAI Gym'iga alustada

OpenAI Gym toetab Python 3.7 ja uuemaid versioone. OpenAI Gym keskkonna seadistamiseks peate installima gümnaasium, kahvliga pidevalt toetatud jõusaaliversioon:

pip install gümnaasium

Järgmiseks keerake keskkonda. Siiski saate luua kohandatud keskkonna. Kuid alustage OpenAI Gymi kontseptsiooni omandamiseks olemasolevaga.

Allolev kood keerutab üles FrozenLake-v1. The env.reset meetod registreerib esialgse vaatluse:

importida gümnaasium nagu Jõusaal
env = jõusaal.make("FrozenLake-v1", renderdusrežiim="inimene")

vaatlus, info = env.reset()

Mõned keskkonnad nõuavad töötamiseks lisateeke. Kui teil on vaja installida mõni muu teegi, soovitab Python seda erandisõnumi kaudu.

Näiteks installite täiendava teegi (gümnaasium [mänguasjatekst]) käivitada FrozenLake-v1 keskkond.

Toetuge OpenAI jõusaali võimsusele

Üks AI ja masinõppe arendamise tagasilööke on infrastruktuuri ja koolituse andmekogumite nappus. Kuid kui soovite integreerida masinõppemudeleid oma rakendustesse või seadmetesse, on Internetis lendavate valmis tehisintellekti mudelite abil nüüd lihtsam. Kuigi mõned neist tööriistadest on odavad, on teised, sealhulgas OpenAI Gym, tasuta ja avatud lähtekoodiga.