Seda suurt keelemudelit on koolitatud pimedas veebis küberjulgeolekuohtude hindamiseks. Siin on, mida peate teadma.

Suurte keelemudelite (LLM) populaarsus kasvab hüppeliselt ning järjest lisandub uusi mudeleid. Neid mudeleid, nagu ChatGPT, koolitatakse tavaliselt mitmesuguste Interneti-allikate, sealhulgas artiklite, veebisaitide, raamatute ja sotsiaalmeedia kohta.

Lõuna-Korea teadlaste meeskond töötas enneolematu sammuna välja DarkBERT, LLM-i, mis on koolitatud ainult pimedast veebist võetud andmekogumite põhjal. Nende eesmärk oli luua tehisintellekti tööriist, mis ületab olemasolevaid keelemudeleid ja abistab ohuuurijaid, õiguskaitse- ja küberjulgeolekuspetsialiste küberohtudega võitlemisel.

Mis on DarkBERT?

DarkBERT on trafopõhine kodeerija mudel, mis põhineb RoBERTa arhitektuuril. LLM-i koolitati miljonite tumedate veebilehtede, sealhulgas häkkimisfoorumite, pettusveebisaitide ja muude ebaseaduslike tegevustega seotud veebiallikate andmete kohta.

Termin "tume veeb" viitab peidetud Interneti-jaotisele

instagram viewer
tavaliste veebibrauserite kaudu ligipääsmatu. See alajaotis on tuntud anonüümsete veebisaitide ja turgude poolest, mis on kurikuulsad ebaseaduslike tegevuste, näiteks varastatud andmete, narkootikumide ja relvadega kauplemise poolest.

DarkBERTi koolitamiseks said teadlased juurdepääs tumedale veebile Tor-võrgu kaudu ja kogusid algandmeid. Nad filtreerisid need andmed hoolikalt, kasutades selliseid meetodeid nagu dubleerimine, kategooriate tasakaalustamine ja eeltöötlus luua täiustatud tume veebiandmebaas, mis edastati seejärel umbes 15 päeva jooksul RoBERTa-le, et luua DarkBERT.

DarkBERTi võimalikud kasutusalad küberturvalisuses

DarkBERTil on märkimisväärne arusaam küberkurjategijate keelest ja ta suudab suurepäraselt tuvastada konkreetseid potentsiaalseid ohte. See võib uurida pimedat veebi ning edukalt tuvastada ja tähistada küberjulgeolekuohte, nagu andmelekked ja lunavara, muutes selle potentsiaalselt kasulikuks vahendiks küberohtudega võitlemisel.

DarkBERTi efektiivsuse hindamiseks võrdlesid teadlased seda kahe tuntud NLP mudeliga, BERT ja RoBERTa, hinnates nende toimivust kolmel olulisel küberturvalisusega seotud kasutusjuhul, postitatud arxiv.org, näitab.

1. Jälgige tumedaid veebifoorumeid potentsiaalselt kahjulike lõimede jaoks

Tumedate veebifoorumite jälgimine, mida tavaliselt kasutatakse ebaseadusliku teabe vahetamiseks, on potentsiaalselt ohtlike lõimede tuvastamiseks ülioluline. Nende käsitsi ülevaatamine võib aga olla aeganõudev, mistõttu on protsessi automatiseerimine turvaekspertidele kasulik.

Teadlased keskendusid potentsiaalselt kahjustavatele tegevustele häkkimisfoorumites, töötades välja märkuste tegemise juhised tähelepanuväärsete lõimede jaoks, sealhulgas konfidentsiaalsete andmete jagamine ja kriitilise pahavara levitamine või haavatavused.

DarkBERT edestas teisi keelemudeleid täpsuse, meeldetuletuse ja F1-skoori poolest, olles parim valik tumedas veebis tähelepanuväärsete lõimede tuvastamiseks.

2. Tuvastage saidid, mis majutavad konfidentsiaalset teavet

Häkkerid ja lunavararühmad kasutavad tumedat veebi lekkesaitide loomiseks, kus nad avaldavad konfidentsiaalseid andmeid, mis on varastatud organisatsioonidelt, kes keelduvad lunarahanõudeid täitmast. Teised küberkurjategijad laadivad lihtsalt tumedasse veebi üles lekkinud tundlikke andmeid, nagu paroolid ja finantsteave, eesmärgiga need maha müüa.

Oma uuringus kogusid teadlased andmeid alates kurikuulsad lunavararühmad ja analüüsis lunavaralekke saite, mis avaldavad organisatsioonide privaatseid andmeid. DarkBERT edestas teisi keelemudeleid selliste saitide tuvastamisel ja klassifitseerimisel, näidates, kuidas ta mõistab tumeveebi põrandaalustes häkkimisfoorumites kasutatavat keelt.

DarkBERT kasutab täitmismaski funktsiooni, mis on BERT-i perekonna keelemudelitele omane funktsioon, et tuvastada täpselt märksõnad, mis on seotud ebaseaduslike tegevustega, sealhulgas uimastimüügiga pimedas veebis.

Kui sõna "MDMA" oli uimastimüügilehel maskeeritud, genereeris DarkBERT uimastitega seotud sõnu, samas kui teised mudelid soovitasid üldisi sõnu ja termineid, mis ei ole seotud uimastitega, nagu erinevad elukutsed.

DarkBERTi võime tuvastada ebaseaduslike tegevustega seotud märksõnu võib olla väärtuslik tekkivate küberohtude jälgimisel ja nendega tegelemisel.

Kas DarkBERT on üldsusele kättesaadav?

DarkBERT pole praegu avalikkusele kättesaadav, kuid teadlased on avatud taotlustele kasutada seda akadeemilistel eesmärkidel.

Kasutage AI jõudu ohtude tuvastamiseks ja ennetamiseks

DarkBERT on saanud eelkoolituse tumeda veebi andmete alal ja ületab olemasolevaid keelemudeleid mitmel küberturvalisuse kasutusjuhtumil, positsioneerides end olulise tööriistana tumeda veebi uurimise edendamisel.

Tumedat veebipõhist tehisintellekti saab kasutada mitmesuguste küberjulgeolekuga seotud ülesannete jaoks, sealhulgas lekkinud veebisaite müüvate veebisaitide tuvastamiseks. konfidentsiaalsed andmed, pimedate veebifoorumite jälgimine ebaseadusliku teabe jagamise tuvastamiseks ja kübervaldkonnaga seotud märksõnade tuvastamine ähvardused.

Kuid peaksite alati meeles pidama, et nagu teisedki LLM-id, on ka DarkBERT pooleliolev töö ja selle jõudlust saab pideva koolituse ja peenhäälestuse abil parandada.