AI mudelid on täpselt nii head, kui palju on neisse kantud andmed. See muudab need andmed potentsiaalseks rünnakute sihtmärgiks.
Tehisintellekti edusammud on avaldanud märkimisväärset mõju erinevatele valdkondadele. See on andnud üsna paljudele tehnikahuvilistele põhjust muretsemiseks. Kuna need tehnoloogiad laienevad erinevatesse rakendustesse, võivad need põhjustada vastastikku suunatud rünnakute arvu suurenemist.
Mis on tehisintellekti võistlevad rünnakud?
Võistlevad rünnakud kasutavad AI mudelite spetsifikatsioone ja haavatavusi. Need rikuvad andmeid, millest AI mudelid on õppinud, ja põhjustavad nende mudelite ebatäpseid väljundeid.
Kujutage ette, et naljamees muudab ananassina paigutatud plaadid "õunapuuks". See on sarnane sellega, mis toimub võistlevate rünnakute korral.
Mõni aasta tagasi oli AI mudelilt mõne vale vastuse või väljundi saamine norm. Praegu on olukord vastupidine, sest ebatäpsused on muutunud erandiks ja tehisintellekti kasutajad ootavad peaaegu täiuslikke tulemusi.
Kui neid tehisintellekti mudeleid rakendatakse reaalsetes stsenaariumides, võivad ebatäpsused olla saatuslikud, muutes võistlevad rünnakud väga ohtlikuks. Näiteks võivad liiklusmärkidel olevad kleebised autonoomse isejuhtiva auto segadusse ajada ja panna selle liiklusesse või otse takistusele.
Võistlevate rünnakute tüübid
Võistlevaid rünnakuid on mitmesuguseid. Koos tehisintellekti integreerimise suurendamine igapäevastesse rakendustesse, muutuvad need rünnakud tõenäoliselt hullemaks ja keerulisemaks.
Sellegipoolest saame vastastikku suunatud rünnakud jämedalt liigitada kahte tüüpi, lähtudes sellest, kui palju ohus osaleja AI mudelist teab.
1. Valge kasti rünnakud
sisse valge kasti rünnakud, on ohus osalejatel täielikud teadmised tehisintellekti mudeli sisemisest toimimisest. Nad teavad selle spetsifikatsioone, koolitusandmeid, töötlemistehnikaid ja parameetreid. Need teadmised võimaldavad neil luua võistleva rünnaku spetsiaalselt selle mudeli jaoks.
Valge kasti rünnaku esimene samm on algsete treeningandmete muutmine, rikkudes need võimalikult vähe. Muudetud andmed on endiselt väga sarnased algsetele, kuid piisavalt olulised, et tehisintellekti mudel annaks ebatäpseid tulemusi.
See pole veel kõik. Rünnaku järel hindab ohus osaleja mudeli tõhusust, esitades sellele vastandlikke näiteid –moonutatud sisendid, mille eesmärk on põhjustada mudeli vigu— ja analüüsib väljundit. Mida ebatäpsem tulemus, seda edukam on rünnak.
2. Musta kasti rünnakud
Erinevalt valge kasti rünnakutest, kus ohunäitleja teab tehisintellekti mudeli sisemisest tööst, on rünnaku toimepanijad musta kasti rünnakud pole õrna aimugi, kuidas mudel töötab. Nad lihtsalt jälgivad mudelit pimedast nurgast, jälgides selle sisend- ja väljundväärtusi.
Musta kasti rünnaku esimene samm on valida sisendsihtmärk, mida AI mudel soovib klassifitseerida. Seejärel loob ohunäitleja sisendist pahatahtliku versiooni, lisades hoolikalt koostatud müra, häired andmetes, mis on inimsilmale nähtamatud, kuid võivad AI mudelit põhjustada rike.
Pahatahtlik versioon suunatakse mudelisse ja väljundit jälgitakse. Mudeli antud tulemused aitavad ohus osalejal versiooni muuta, kuni nad on piisavalt kindlad, et see klassifitseerib kõik sellesse sisestatud andmed valesti.
Võistlevatel rünnakutel kasutatavad tehnikad
Pahatahtlikud üksused võivad kasutada võistlevate rünnakute läbiviimiseks erinevaid tehnikaid. Siin on mõned neist tehnikatest.
1. Mürgistus
Ründajad saavad manipuleerida (mürgitada) väikest osa tehisintellekti mudeli sisendandmetest, et kahjustada selle treeninguandmeid ja täpsust.
Mürgistuse vorme on mitu. Üks levinumaid on tagaukse mürgistus, mis mõjutab väga vähe treeninguandmeid. AI-mudel annab jätkuvalt väga täpseid tulemusi, kuni see "aktiveerub", et konkreetsete päästikutega kokkupuutel talitlushäire ilmneb.
2. Kõrvalehoidmine
See tehnika on üsna surmav, kuna väldib tuvastamist tehisintellekti turvasüsteemi järgides.
Enamik AI mudeleid on varustatud anomaaliate tuvastamise süsteemidega. Kõrvalehoidmise tehnikad kasutavad võistlevaid näiteid, mis lähevad otse nendele süsteemidele.
See tehnika võib olla eriti ohtlik selliste kliiniliste süsteemide puhul nagu autonoomsed autod või meditsiinidiagnostika mudelid. Need on väljad, kus ebatäpsustel võivad olla rasked tagajärjed.
3. Ülekantavus
Seda tehnikat kasutavad ohustajad ei vaja varasemaid teadmisi tehisintellekti mudeli parameetrite kohta. Nad kasutavad võistlevaid rünnakuid, mis on varem olnud edukad mudeli muude versioonide vastu.
Näiteks kui võistlev rünnak paneb kujutise klassifikaatori mudeli ekslikult pidama kilpkonna vintpüssiks, võib täpne rünnak põhjustada sama vea ka teistes kujutiste klassifikaatori mudelites. Teisi mudeleid oleks võinud koolitada erineva andmestiku järgi ja neil oleks isegi erinev arhitektuur, kuid need võivad siiski langeda rünnaku ohvriks.
4. Surrogaatlus
Selle asemel, et järgida mudeli turvasüsteeme, kasutades kõrvalehoidmistehnikaid või varem õnnestunud rünnakuid, võiks ohus osaleja kasutada asendusmudelit.
Selle tehnika abil loob ohustaja sihtmudelist identse versiooni, asendusmudeli. Surrogaadi tulemused, parameetrid ja käitumine peavad olema identsed algse kopeeritud mudeliga.
Surrogaat allutatakse nüüd erinevatele võistlevatele rünnakutele, kuni see põhjustab ebatäpse tulemuse või teeb vale liigituse. Seejärel kasutatakse seda rünnakut algse sihtmärk-AI vastu.
Kuidas peatada vastastikku suunatud rünnakud
Võistlevate rünnakute eest kaitsmine võib olla keeruline ja aeganõudev, kuna ohus osalejad kasutavad erinevaid vorme ja tehnikaid. Järgmised sammud võivad aga ennetada ja peatada vastastikku suunatud rünnakuid.
1. Konkurentsipõhine koolitus
Kõige tõhusam samm, mis võib vastaste rünnakuid ära hoida, on võistlev koolitus, tehisintellekti mudelite ja masinate koolitamine võistlevate näidete abil. See parandab mudeli vastupidavust ja võimaldab sellel olla vastupidav vähimategi sisendhäirete suhtes.
2. Regulaarne auditeerimine
AI mudeli anomaaliate tuvastamise süsteemis on vaja regulaarselt kontrollida nõrkusi. See hõlmab mudeli tahtlikku söötmist vastandlike näidetega ja mudeli käitumise jälgimist pahatahtliku sisendi suhtes.
3. Andmete puhastamine
See meetod hõlmab mudelisse sisestatud pahatahtlike sisendite kontrollimist. Pärast nende tuvastamist tuleb need viivitamatult eemaldada.
Neid andmeid saab tuvastada sisendvalideerimise abil, mis hõlmab andmete kontrollimist varem tuntud võistlevate näidete mustrite või allkirjade suhtes.
4. Turvavärskendused
Turvavärskenduste ja -paikadega oleks raske valesti minna. Mitmekihiline turvalisus, nagu tulemüürid, pahavaratõrjeprogrammid ja sissetungi tuvastamise ja ennetamise süsteemid võib aidata blokeerida välist sekkumist ohus osalejatelt, kes soovivad AI mudelit mürgitada.
Vastaste rünnakud võivad olla väärt vastane
Võistlevate rünnakute kontseptsioon kujutab endast probleemi arenenud õppimise ja masinõppe jaoks.
Selle tulemusena tuleb AI mudelid varustada kaitsemeetmetega, nagu võistlev koolitus, regulaarne auditeerimine, andmete puhastamine ja asjakohased turvavärskendused.