GPTBot pole tõenäoliselt see, mida arvate.

Võtmed kaasavõtmiseks

  • OpenAI GPTBot on veebiroomik, mis on loodud avalikelt veebisaitidelt andmete kogumiseks, mida seejärel kasutatakse tehisintellekti mudelite (nt GPT-4 ja ChatGPT) koolitamiseks ja täiustamiseks.
  • Mõned Interneti suurimad veebisaidid blokeerivad GPTBoti, kuna see pääseb juurde autoriõigustega kaitstud sisule ja kasutab seda ilma loojatele loata või hüvitist maksmata.
  • Kuigi veebisaidid võivad GPTBoti blokeerimiseks kasutada selliseid tööriistu nagu robots.txt, ei ole mingit garantiid, et OpenAI järgib seda, andes neile kontrolli autoriõigustega kaitstud andmetele juurdepääsu üle.

2023. aasta augustis teatas ChatGPT väljatöötamise eest vastutav tehisintellekti jõuallikas OpenAI GPTBot, veebiroomiku, mis on loodud veebi läbimiseks ja andmete kogumiseks.

Vahetult pärast seda teadaannet blokeerisid mõned Interneti suurimad veebisaidid robotil juurdepääsu oma veebisaidile. Aga miks? Mis on OpenAI GPTBot? Miks suured veebisaidid seda kardavad ja miks nad üritavad seda blokeerida?

Mis on OpenAI GPTBot?

GPTBot on OpenAI loodud veebiroomik, et otsida Internetist ja koguda teavet OpenAI AI arendamise eesmärkide jaoks. See on programmeeritud indekseerima avalikke veebisaite ja saatma andmed tagasi OpenAI serveritesse. Seejärel kasutab OpenAI neid andmeid oma tehisintellekti mudelite koolitamiseks ja täiustamiseks, et luua üha arenenumaid tehisintellektisüsteeme. Keerukate AI-mudelite (nt GPT-4) või selle alamtoodete (nt ChatGPT) loomiseks on veebiindeksoijad peaaegu asendamatud.

AI-mudeli väljaõpetamine nõuab tohutul hulgal andmeid ja üks tõhusamaid viise nende andmete kogumiseks on kasutada selliseid tööriistu nagu veebiindeksoijad. Indeksoijad saavad süstemaatiliselt veebi sirvida, linke jälgida, et indekseerida suuri veebilehti, ja eraldada põhiandmeid, nagu tekst, pildid ja metaandmed, mis vastavad eelmääratletud mustrile.

Neid andmeid saab seejärel struktureerida ja sisestada tehisintellekti mudelitesse, et treenida nende loomulikku keeletöötlusvõimet või kujutiste genereerimise võimet või koolitada neid muude tehisintellekti ülesannete jaoks. Teisisõnu, veebiindeksoijad koguvad andmeid, mis võimaldavad sellistel tööriistadel nagu ChatGPT või DALL-E teha seda, mida nad teevad.

Veebiindeksoijad pole uus kontseptsioon. Tõenäoliselt roomavad miljonid neist tänapäeval Internetis saadaolevatel miljarditel veebisaitidel. Ja nad on olnud olemas vähemalt 90ndate algusest. GPTBot on vaid üks sellistest OpenAI-le kuuluvatest indeksoijatest. Niisiis, mis põhjustab poleemikat selle konkreetse veebiroomiku ümber?

Miks Big Tech saidid blokeerivad GPTBoti?

Vastavalt Business Insider, blokeerivad mõned Interneti suurimad veebisaidid aktiivselt OpenAI roomaja oma veebisaidil. Niisiis, kui GPTBoti lõppeesmärk on edendada tehisintellekti arendamist, siis miks on mõned Interneti suurimad saidid, millest mõned on AI-st ühel või teisel viisil kasu saanud, selle vastu?

Noh, siin on asi. Alates 2022. aasta generatiivsete tehisintellektitehnoloogiate taastekkest on toimunud arvukalt arutelusid tehisintellekti ettevõtete õiguse üle kasutada peaaegu piiranguteta Internetist pärinevaid andmeid, millest märkimisväärne osa on seadusega kaitstud autoriõigus. Ükski selge seadus ei reguleeri seda, kuidas need ettevõtted andmeid oma huvides koguvad ja kasutavad.

Põhimõtteliselt roomavad roomajad, nagu GPTBot, veebis, haaravad inimeste loomingulist tööd teksti, piltide või muul kujul meediat ja kasutada seda ärilistel eesmärkidel ilma luba, litsentsi hankimata või originaalile kompensatsiooni andmata loojad.

Väljas on metsik lääs ja tehisintellekti ettevõtted haaravad kõigest, mis kätte jõuab. Suured veebisaidid, nagu Quora, CNN, New York Times, Business Insider ja Amazon, ei ole väga rahul, et nende Need roomajad koguvad autoriõigustega kaitstud sisu, nii et OpenAI saab sellest oma rahalist kasu kulu.

Seetõttu juurutavad need saidid faili "robots.txt", mis on aastakümneid vana meetod veebiroomajate blokeerimiseks. Vastavalt OpenAI, järgib GPTBot veebisaitide roomamise või roomamise vältimise juhiseid, mis põhinevad reeglitel, mis on manustatud faili robots.txt, mis on väike tekstifail, mis ütleb veebiroomajatele, kuidas saidil käituda. Kui teil on oma sait ja soovite, et GPTBot ei saaks teie andmeid haarata, tehke järgmist. blokeerida OpenAI indeksoijatel teie veebisaiti kraapimast.

Kas veebisaidid võivad GPTBoti tõesti peatada?

Kuigi indeksoijad, nagu GPTBot, on hädavajalikud tohutute andmemahtude kogumiseks, mida on vaja koolitada arenenud tehisintellekti süsteeme, on autoriõiguse ja õiglase kasutamisega seotud kahtlused, mida ei saa olla ignoreeritud.

Muidugi on selle vastu kaitsmiseks lihtsaid tööriistu, nagu robots.txt, kuid OpenAI otsustab, kas GPTBot järgib selles failis olevaid juhiseid. Puuduvad garantiid, et nad seda teevad, ja pole kohe lollikindel viisi, kuidas öelda, kas nad on seda teinud. Võitluses selle nimel, et hoida GPTBot autoriõigustega kaitstud andmetest eemal, hoiab OpenAI ässasid, vähemalt praegu.