Null-shot-õpe lahendab masinõppes mitmeid probleeme, kuid kuidas see töötab ja kuidas see tehisintellekti paremaks muudab?

Võtmed kaasavõtmiseks

  • Üldistamine on süvaõppes hädavajalik, et tagada uute andmetega täpsed prognoosid. Null-shot õpe aitab seda saavutada, võimaldades AI-l kasutada olemasolevaid teadmisi, et teha täpseid ennustusi uute või seninägematute klasside kohta ilma märgistatud andmeteta.
  • Null-shot-õpe jäljendab seda, kuidas inimesed õpivad ja andmeid töötlevad. Täiendavat semantilist teavet pakkudes saab eelkoolitatud mudel täpselt tuvastada uusi klasse, täpselt nagu inimene saab õppida tuvastama õõnsa kehaga kitarri, mõistes selle omadusi.
  • Null-shot-õpe parandab tehisintellekti, parandades üldistust, skaleeritavust, vähendades ülepaigutamist ja olles kulutõhus. See võimaldab koolitada mudeleid suuremate andmekogumite osas, omandada ülekandeõppe kaudu rohkem teadmisi, paremini mõista konteksti ja vähendada vajadust ulatuslike märgistatud andmete järele. Tehisintellekti arenedes muutub null-shot-õpe veelgi olulisemaks erinevate valdkondade keeruliste väljakutsete lahendamisel.

Süvaõppe üks suuremaid eesmärke on koolitada mudeleid, mis on saanud üldistatud teadmised. Üldistamine on oluline, kuna see tagab, et mudel on õppinud tähendusrikkaid mustreid ja suudab teha täpseid ennustusi või otsuseid uute või nähtamatute andmetega silmitsi seistes. Selliste mudelite väljaõpe nõuab sageli märkimisväärset hulka märgistatud andmeid. Sellised andmed võivad aga olla kulukad, töömahukad ja mõnikord võimatud.

Selle lünga ületamiseks rakendatakse null-shot-õpet, mis võimaldab AI-l kasutada oma olemasolevaid teadmisi üsna täpsete prognooside tegemiseks vaatamata märgistatud andmete puudumisele.

Mis on null-shot õpe?

Null-shot-õpe on spetsiifiline ülekande õppimise tehnika. See keskendub eelkoolitatud mudeli kasutamisele uute või seninägematute klasside tuvastamiseks, pakkudes lihtsalt lisateavet, mis kirjeldab uue klassi üksikasju.

Kasutades mudeli üldteadmisi teatud teemade kohta ja andes sellele täiendavat semantikat selle kohta, mida otsida, peaks see suutma üsna täpselt kindlaks määrata, millist teemat ta on kohustatud tuvastama.

Oletame, et peame tuvastama sebra. Meil pole aga mudelit, mis selliseid loomi tuvastaks. Niisiis, saame juba olemasoleva mudeli, mis on koolitatud hobuste tuvastamiseks ja ütlema mudelile, et mustade ja valgete triipudega hobused on sebrad. Kui alustame mudeli järeldamist sebrate ja hobuste kujutiste esitamisega, on suur tõenäosus, et mudel tuvastab iga looma õigesti.

Nagu paljud süvaõppe tehnikad, jäljendab null-shot õpe seda, kuidas inimesed õpivad ja andmeid töötlevad. Inimesed on teadaolevalt loomulikud null-õppijad. Kui teile tehti ülesandeks leida muusikapoest õõnsa korpusega kitarr, võib teil selle otsimisega probleeme tekkida. Aga kui ma ütlen teile, et õõnes korpus on põhimõtteliselt kitarr, mille ühel või mõlemal küljel on f-kujuline auk, leiate selle tõenäoliselt kohe.

Reaalse näite jaoks kasutame nullkaadri klassifitseerimisrakendust avatud lähtekoodiga LLM-i hostimissait Hugging Face kasutades mudelit clip-vit-large.

Sellel fotol on kujutatud leiba toidukotis, mis on kinnitatud toidutooli külge. Kuna modelli koolitati suurel hulgal piltide andmestikul, suudab modell tõenäoliselt tuvastada kõik fotol olevad esemed, nagu leib, toidukaubad, toolid ja turvavööd.

Nüüd tahame, et mudel klassifitseeriks pildi varem nähtamatute klasside abil. Sel juhul oleksid uudsed või seninägematud tunnid "Lõõgastunud leib", "Ohutu leib", "Istuv leib", "Toidupoe juhtimine" ja "Turvaline toidupood".

Pange tähele, et oleme sihilikult kasutanud aeg-ajalt nähtamatuid klasse ja pilte, et näidata kujutise nullkaadri klassifitseerimise tõhusust.

Pärast mudeli järeldamist suutis see ligikaudu 80% kindlusega klassifitseerida, et kõige sobivam klassifikatsioon pilt oli "Ohutu leib". See on tõenäoline, kuna modell arvab, et söögitool on rohkem turvalisuse kui istumise, lõõgastumise või lõõgastumise jaoks sõites.

Vinge! Mina isiklikult oleksin mudeli väljundiga nõus. Aga kuidas täpselt mudel sellise väljundiga välja tuli? Siin on üldine ülevaade null-shot-õppe toimimisest.

Kuidas nullkaadriga õpe töötab

Null-õpe võib aidata eelkoolitatud mudelil tuvastada uusi klasse ilma märgistatud andmeid esitamata. Kõige lihtsamal kujul toimub nullkaadri õpe kolmes etapis:

1. Ettevalmistus

Null-shot-õpe algab kolme tüüpi andmete ettevalmistamisega

  • Nähtud klass: Eelkoolitatud mudeli koolitamisel kasutatud andmed. Mudel pakub juba nähtud klasse. Null-õppe parimad mudelid on mudelid, mis on koolitatud klassides, mis on tihedalt seotud uue klassiga, mida soovite mudelil tuvastada.
  • Nähtamatu/uudne klass: Andmed, mida mudeli väljaõppe ajal kordagi ei kasutatud. Peate need andmed ise kureerima, kuna te ei saa neid mudelist hankida.
  • Semantilised/abiandmed: Täiendavad andmebitid, mis aitavad mudelil uudset klassi tuvastada. See võib esineda sõnades, fraasides, sõnade manustamises või klassinimedes.

2. Semantiline kaardistamine

Järgmine samm on kaardistada nähtamatu klassi omadused. Seda tehakse sõnade manustamise ja semantilise kaardi loomisega, mis seob nähtamatu klassi atribuudid või omadused pakutavate abiandmetega. AI ülekande õpe muudab protsessi palju kiiremaks, kuna paljud nähtamatu klassiga seotud atribuudid on juba kaardistatud.

3. Järeldamine

Järeldus on mudeli kasutamine prognooside või väljundi genereerimiseks. Nullkaadri kujutiste klassifikatsioonis genereeritakse antud pildisisendil sõna manustused ning seejärel joonistatakse ja võrreldakse abiandmetega. Kindluse tase sõltub sisendi ja esitatud lisaandmete sarnasusest.

Kuidas nullkaadri õpe parandab tehisintellekti

Null-shot õpe parandab AI mudeleid, lahendades mitmeid masinõppe väljakutseid, sealhulgas:

  • Täiustatud üldistus: Sõltuvuse vähendamine märgistatud andmetest võimaldab koolitada mudeleid suuremate andmekogumite jaoks, parandades üldistamist ning muutes mudeli tugevamaks ja usaldusväärsemaks. Kui mudelid muutuvad kogenumaks ja üldistatumaks, modellidel võib isegi olla võimalik tervet mõistust õppida tüüpilise teabe analüüsimise viisi asemel.
  • Skaleeritavus: Mudeleid saab pidevalt koolitada ja omandada rohkem teadmisi ülekandeõppe kaudu. Ettevõtted ja sõltumatud teadlased saavad oma mudeleid pidevalt täiustada, et olla tulevikus võimekamad.
  • Vähendatud ülepaigutamise võimalus: Ülesobitamine võib juhtuda seetõttu, et mudelit õpetatakse väikese andmekogumi põhjal, mis ei sisalda piisavalt mitmekesisust, et esindada kõiki võimalikke sisendeid. Mudeli koolitamine null-shot-õppe kaudu vähendab ülepaigutamise võimalusi, treenides mudelit nii, et tal oleks parem kontekstuaalne arusaam teemadest.
  • Kuluefektiivne: Suure hulga märgistatud andmete esitamine võib võtta aega ja ressursse. Nullkaadri ülekande õppimist kasutades saab tugeva mudeli väljaõpetamist teha palju vähema aja ja märgistatud andmetega.

Tehisintellekti arenedes muutuvad tehnikad nagu nullkaadri õppimine veelgi olulisemaks.

Null-shot-õppe tulevik

Nullõppest on saanud masinõppe oluline osa. See võimaldab mudelitel tuvastada ja klassifitseerida uusi klasse ilma selgesõnalise koolituseta. Mudelarhitektuuride, atribuutidel põhinevate lähenemisviiside ja multimodaalse integratsiooni pideva arenguga on võimalik null-shot-õpe aitavad oluliselt muuta mudelid palju kohanemisvõimelisemaks robootika, tervishoiu ja arvutialaste keeruliste väljakutsete lahendamisel nägemus.