Kas olete mures AI vestlusrobotite pärast, mis teie veebisaidi sisu otsivad? Õnneks saate neil seda takistada. Siin on, kuidas.
Praegusel hetkel on AI vestlusrobotidel tasuta litsents teie veebisaidi kraapimiseks ja selle sisu kasutamiseks ilma teie loata. Kas olete mures selle pärast, et sellised tööriistad hävitavad teie sisu?
Hea uudis on see, et saate peatada AI-tööriistadele juurdepääsu oma veebisaidile, kuid on mõned hoiatused. Siin näitame teile, kuidas oma veebisaidi faili robots.txt abil roboteid blokeerida, ning selle plusse ja miinuseid.
Kuidas pääsevad AI-vestlusbotid teie veebisisule juurde?
AI vestlusroboteid koolitatakse mitme andmekogumi abil, millest mõned on avatud lähtekoodiga ja avalikult kättesaadavad. Näiteks GPT3 koolitati vastavalt viiele andmekogumile OpenAI avaldatud uurimistöö:
- Tavaline roomamine (60% kaal treeningul)
- WebText2 (22% kaal treeningul)
- Raamatud1 (8% kaal treeningul)
- Raamatud2 (8% kaal treeningul)
- Wikipedia (3% kaal treeningul)
Tavaline indekseerimine
sisaldab petabaite (tuhandeid TB-sid) andmeid veebisaitidelt, mis on kogutud alates 2008. aastast, sarnaselt sellele, kuidas Google'i otsingualgoritm veebisisus roomab. WebText2 on OpenAI loodud andmestik, mis sisaldab ligikaudu 45 miljonit veebilehte, millele on lingitud Redditi postitustest, millel on vähemalt kolm poolthäält.Nii et ChatGPT puhul ei pääse AI-bot teie veebilehtedele otse juurde ega rooma neid – igatahes veel mitte. Kuigi OpenAI oma teadaanne ChatGPT-hostitud veebibrauseri kohta on väljendanud muret, et see võib muutuda.
Seni peaksid veebisaitide omanikud hoidma silma peal teistel tehisintellekti vestlusrobotidel, kuna neid jõuab turule rohkem. Bard on selle valdkonna teine suur nimi ja sellest teatakse väga vähe selle koolitamiseks kasutatavad andmekogumid. Ilmselgelt teame, et Google'i otsingurobotid roomavad pidevalt veebilehtedel, kuid see ei tähenda tingimata, et Bardil on juurdepääs samadele andmetele.
Miks on mõned veebisaidiomanikud mures?
Suurim mure veebisaitide omanike jaoks on see, et AI-botid nagu ChatGPT, Bard ja Bing Chat devalveerivad nende sisu. AI-botid kasutavad vastuste genereerimiseks olemasolevat sisu, kuid vähendavad ka kasutajate vajadust algallikale juurde pääseda. Selle asemel, et kasutajad külastada veebisaite teabele juurdepääsu saamiseks, saavad nad lihtsalt lasta Google'il või Bingil koostada neile vajaliku teabe kokkuvõte.
Kui rääkida otsingus tehisintellekti vestlusrobotidest, on veebisaitide omanike suur mure liikluse kaotamine. Bardi puhul AI-bot sisaldab harva tsitaate oma generatiivsetes vastustes, mis annab kasutajatele teada, millistelt lehtedelt see teavet saab.
Seega, lisaks veebisaidi külastuste asendamisele tehisintellekti vastustega, eemaldab Bard peaaegu igasuguse võimaluse, et lähteveebisait saab liiklust – isegi kui kasutaja soovib rohkem teavet. Bing Chat seevastu lingib sagedamini teabeallikatele.
Teisisõnu, praegune generatiivsete AI-tööriistade park on selline kasutades sisuloojate tööd süstemaatiliselt asendada vajadus sisuloojate järele. Lõpuks peate küsima millise stiimuli see veebisaitide omanikele jätab sisu avaldamise jätkamiseks. Ja lisaks, mis juhtub tehisintellekti robotitega, kui veebisaidid lõpetavad sisu avaldamise, mille toimimiseks nad sõltuvad?
Kuidas AI-boteid oma veebisaidilt blokeerida
Kui te ei soovi, et AI-botid teie veebisisu kasutaksid, saate blokeerida nende juurdepääsu teie saidile, kasutades robots.txt faili. Kahjuks peate blokeerima iga üksiku roboti ja määrama need nime järgi.
Näiteks Common Crawli roboti nimi on CCBot ja saate selle blokeerida, lisades oma faili robots.txt järgmise koodi:
Kasutajaagent: CCBot
Keela: /
See blokeerib Common Crawlil teie veebisaidil edaspidi roomamise, kuid see ei eemalda eelmiste roomamiste käigus juba kogutud andmeid.
Kui olete mures ChatGPT uute pistikprogrammide pärast, mis pääsevad teie veebisisule juurde, on OpenAI juba avaldanud juhised selle roboti blokeerimiseks. Sel juhul nimetatakse ChatGPT robotit ChatGPT-User ja saate selle blokeerida, lisades oma faili robots.txt järgmise koodi:
Kasutajaagent: ChatGPT-kasutaja
Keela: /
Otsingumootori AI-robotite sisu roomamise blokeerimine on aga täiesti teine probleem. Kuna Google on kasutatavate treeningandmete osas väga salajane, on võimatu tuvastada, millised robotid peate blokeerima ja kas need isegi austavad teie käske. robots.txt faili (paljud roomajad seda ei tee).
Kui tõhus see meetod on?
AI-robotite blokeerimine teie sisemuses robots.txt fail on praegu kõige tõhusam meetod, kuid see pole eriti usaldusväärne.
Esimene probleem on see, et peate määrama iga roboti, mida soovite blokeerida, kuid kes suudab jälgida iga turule jõudvat tehisintellekti robotit? Järgmine probleem on see, et teie käsud on saadaval robots.txt failid on mittekohustuslikud juhised. Kuigi Common Crawl, ChatGPT ja paljud teised robotid austavad neid käske, paljud robotid seda ei tee.
Teine suur hoiatus on see, et saate blokeerida ainult AI-robotite tulevaste roomamiste tegemise. Te ei saa eemaldada varasemate roomamiste andmeid ega saata ettevõtetele, nagu OpenAI, taotlusi kõigi oma andmete kustutamiseks.
Kahjuks pole lihtsat viisi kõikide AI-robotite juurdepääsu teie veebisaidile blokeerimiseks ja iga üksiku roboti käsitsi blokeerimine on peaaegu võimatu. Isegi kui hoiate end kursis uusimate veebis rändlevate AI-robotidega, pole mingit garantiid, et nad kõik teie käskudest kinni peavad. robots.txt faili.
Siin on tõeline küsimus, kas tulemused on pingutust väärt, ja lühike vastus on (peaaegu kindlasti) ei.
AI-robotite blokeerimisel teie veebisaidilt on ka võimalikke varjukülgi. Eelkõige ei saa te koguda sisulisi andmeid, et tõestada, kas sellised tööriistad nagu Bard toovad kasu või kahjustavad teie otsinguturunduse strateegiat.
Jah, võite eeldada, et tsitaatide puudumine on kahjulik, kuid te ainult aimate, kui teil pole andmeid, kuna blokeerisite AI-robotidel teie sisule juurdepääsu. See oli sarnane lugu, kui Google esmakordselt tutvustas esiletõstetud katkendid otsida.
Asjakohaste päringute korral näitab Google tulemuste lehel katkendit veebilehtede sisust, vastates kasutaja küsimusele. See tähendab, et kasutajad ei pea otsitava vastuse saamiseks veebisaidile klõpsama. See tekitas paanikat veebisaitide omanikes ja SEO ekspertides, kes loodavad otsingupäringutest liiklust.
Esiletõstetud väljavõtteid käivitavad päringud on aga üldiselt madala väärtusega otsingud, nagu „mis on X” või „milline on ilm New Yorgis”. Kõik, kes soovivad põhjalikku teavet või põhjalikku ilmateadet, klõpsavad endiselt ja need, kes seda ei soovi, ei olnud kunagi nii väärtuslikud.
Võib-olla leiate, et generatiivsete AI-tööriistadega on see sarnane lugu, kuid vajate selle tõestamiseks andmeid.
Ärge kiirustage millegiga
Veebisaitide omanikud ja avaldajad on arusaadavalt mures tehisintellekti tehnoloogia pärast ja on pettunud ideest, et robotid kasutavad nende sisu koheste vastuste genereerimiseks. Siiski pole praegu õige aeg vasturündekäikudeks kiirustada. AI-tehnoloogia on kiiresti arenev valdkond ja asjad arenevad jätkuvalt kiires tempos. Kasutage seda võimalust, et näha, kuidas asjad käivad, ja analüüsida võimalikke ohte ja võimalusi, mida tehisintellekt lauale toob.
Praegune süsteem, mis tugineb sisuloojate tööle nende asendamisel, ei ole jätkusuutlik. Ükskõik, kas ettevõtted, nagu Google ja OpenAI, muudavad oma lähenemisviisi või kehtestavad valitsused uusi eeskirju, midagi peab andma. Samal ajal on üha selgemini ilmnemas AI vestlusrobotite negatiivne mõju sisu loomisele, mida veebisaitide omanikud ja sisuloojad saavad enda huvides ära kasutada.