8 peamist tegurit, mida AI vestlusrobotite täpsuse testimisel arvestada

Saate testida erinevaid AI-vestlusboteid, et teha kindlaks, milline neist töötab kõige paremini. Aga kuidas peaksite seda tegema? Siin on mõned peamised tegurid, mida arvestada.

AI on jõudnud kaugele ebaolulise ja ebajärjekindla väljundi tootmisest. Kaasaegsed vestlusrobotid kasutavad muude keerukate ülesannete hulgas täiustatud keelemudeleid, mis vastavad üldteadmistele küsimustele, koostavad pikki esseesid ja kirjutavad koodi.

Nendest edusammudest hoolimata pange tähele, et isegi kõige keerukamatel süsteemidel on piirangud. AI teeb ikka vigu. Et teha kindlaks, millised vestlusrobotid on hallutsinatsioonidele kõige vähem altid, testige nende täpsust nende tegurite põhjal.

1. Arvestusoskus

Käivitage matemaatika võrrandid vestlusrobotite kaudu. Nad testivad platvormi võimet analüüsida tekstprobleeme, tõlkida matemaatilisi mõisteid ja rakendada õigeid valemeid. Ainult mõned mudelid näitavad usaldusväärset arvutamisoskust. Tegelikult üks ChatGPT halvimad probleemid ajal selle esimesed kuud oli selle kohutav matemaatika mõistmine.

instagram viewer

Alloleval pildil on ChatGPT põhistatistika ebaõnnestumine.

ChatGPT näitas pärast paranemist OpenAI tõi välja oma 2023. aasta mai värskendused. Kuid arvestades selle piiratud andmekogumeid, on teil endiselt probleeme keskmise ja täiustatud matemaatiliste arvutustega.

Samal ajal näitavad Bing Chat ja Google Bard paremat arvutamisoskust. Nad käitavad päringuid vastavate otsingumootorite kaudu, võimaldades neil tõmmata valemeid ja vastuselehti.

Proovige oma tekstülesanded ümber sõnastada. Vältige pikki lauseid ja asendage nõrgad verbid; vastasel juhul võivad vestlusrobotid teie küsimustest valesti aru saada.

2. Arusaamine

Kaasaegsed AI-süsteemid võivad täita mitmeid ülesandeid. Täiustatud LLM-id võimaldavad neil säilitada varasemad juhised ja vastata viipadele jaotiste kaupa, samas kui vanemad süsteemid töötlevad üksikuid käske. Näiteks Siri vastab ühele küsimusele korraga.

Toidavad vestlusrobotid korraga kolm kuni viis ülesannet, et testida, kui hästi nad keerulisi viipasid analüüsivad. Vähem keerukad mudelid ei suuda nii palju teavet töödelda. Alloleval pildil on näha HuggingChati talitlushäireid kolmeastmelise viipaga – see peatub esimese sammu juures ja kaldub teemast kõrvale.

HuggingChati viimased read on juba ebajärjekindlad.

ChatGPT täidab kiiresti sama viipa, genereerides igal sammul veatuid ja intelligentseid vastuseid.

Bing Chat annab kokkuvõtliku vastuse kolmele etapile. Selle jäigad piirangud keelavad tarbetult pikad väljundid, mis raiskavad töötlemisvõimsust.

3. Õigeaegsus

Kuna tehisintellekti koolitus maksab tohutult ressursse, piirab enamik arendajaid andmekogumeid kindlate perioodidega. Võtke näiteks ChatGPT. Selle teadmiste piirang on 2021. aasta september – te ei saa taotleda ilmateateid, uudiseid ega hiljutisi arenguid. Siin on ChatGPT, mis ütleb, et tal pole juurdepääsu reaalajas teabele.

Bardil on juurdepääs Internetile. See tõmbab andmeid Google'i SERP-idest, nii et saate esitada laiemat valikut küsimusi, nt hiljutisi sündmusi, uudiseid ja ennustusi.

Samuti tõmbab Bing Chat oma otsingumootorist reaalajas teavet.

Bing Chat ja Bard edastavad õigeaegset ja ajakohast teavet, kuid viimane annab üksikasjalikumaid vastuseid. Bing lihtsalt esitab andmed nii, nagu need on. Märkate, et selle väljundid vastavad sageli sõna-sõnalt selle lingitud allikate fraasile ja toonile.

4. Asjakohasus

Vestlusbotid peavad pakkuma asjakohaseid väljundeid. Nad peaksid vastamisel arvestama teie juhiste sõnasõnalise ja kontekstuaalse tähendusega. Võtke see vestlus näiteks. Meie isik vajab uut telefoni, kuid tal on ainult 1000 dollarit – ChatGPT ei ületa eelarvet.

Asjakohasuse testimisel proovige koostada pikki juhiseid. Vähem keerukad vestlusrobotid kipuvad segadust tekitavate juhiste andmisel puutuma. Näiteks saab HuggingChat koostada väljamõeldud lugusid. Kuid see võib põhiteemast kõrvale kalduda, kui seate liiga palju reegleid ja juhiseid.

5. Kontekstuaalne mälu

Kontekstimälu aitab AI-l toota täpset ja usaldusväärset väljundit. Selle asemel, et võtta teie küsimusi täisväärtuslikult, ühendavad nad teie mainitud üksikasjad. Võtke see vestlus näiteks. Bing Chat ühendab kaks eraldi sõnumit, et moodustada kasulik ja lühike vastus.

Samamoodi võimaldab kontekstuaalne mälu vestlusrobotidel juhiseid meelde jätta. Sellel pildil on näha, kuidas ChatGPT jäljendab väljamõeldud tegelase kõneviisi mitme vestluse ajal.

Katsetage seda funktsiooni ise, viidates järjekindlalt eelmistele väidetele. Sisestage vestlusrobotid erinevat teavet ja sundige neid seejärel hilisemates vastustes meelde tuletama.

Kontekstuaalne mälu on piiratud. Bing Chat alustab uusi vestlusi iga 20 käigu järel, samas kui ChatGPT ei saa töödelda rohkem kui 3000 märgiga viipasid.

6. Turvapiirangud

AI ei tööta alati nii, nagu ette nähtud. Vale treening võib põhjustada masinõppetehnoloogiad erinevate vigade tegemiseks, väiksematest matemaatikavigadest probleemsete kommentaarideni. Võtke Microsoft Tay näitena. Twitteri kasutajad kasutasid ära selle järelevalveta õppimismudelit ja tingisid selle rassilise solvamise.

Õnneks õppisid ülemaailmsed tehnoloogialiidrid Microsofti veast. Kuigi see on kulutõhus ja mugav, jätab järelevalveta õppimine AI-süsteemid altid pettustele. Seetõttu tuginevad arendajad tänapäeval peamiselt juhendatud õppele. Jutubotid meeldivad ChatGPT õpib endiselt vestlustest, kuid nende koolitajad filtreerivad teavet kõigepealt.

Oodake tehisintellekti ettevõtetelt erinevaid juhiseid. ChatGPT vähem jäigad piirangud mahutavad laiemat hulka ülesandeid, kuid on nõrgad ärakasutamise vastu. Samal ajal järgib Bing Chat rangemaid piiranguid. Kuigi need aitavad võidelda ärakasutamiskatsetega, takistavad need ka funktsionaalsust. Bing sulgeb potentsiaalselt kahjulikud vestlused automaatselt.

7. AI eelarvamused

AI on oma olemuselt neutraalne. Selle eelistuste ja emotsioonide puudumine muudab selle võimetuks arvamusi kujundama - see lihtsalt esitab teavet, mida ta teab. Siin on, kuidas ChatGPT reageerib subjektiivsetele teemadele.

Vaatamata sellele neutraalsusele, AI eelarvamused ikka tekivad. Need tulenevad arendajate kasutatavatest mustritest, andmekogumitest, algoritmidest ja mudelitest. AI võib olla erapooletu, kuid inimesed mitte.

Näiteks, Brookingsi institutsioon väidab, et ChatGPT demonstreerib vasakpoolseid poliitilisi eelarvamusi. OpenAI eitab neid süüdistusi loomulikult. Kuid selleks, et vältida sarnaseid probleeme uuemate mudelitega, väldib ChatGPT arvamuslikke väljundeid.

Samuti väldib Bing Chat tundlikke, subjektiivseid asju.

Hinnake tehisintellekti eelarvamusi, esitades arvamuspõhiseid avatud küsimusi. Rääkige teemadel, millel pole õiget või valet vastust – vähem keerukad vestlusrobotid kuvavad tõenäoliselt alusetuid eelistusi konkreetsete rühmade suhtes.

8. Viited

AI kontrollib fakte harva üle. See lihtsalt tõmbab teabe oma andmekogumitest ja sõnastab need keelemudelite kaudu ümber. Kahjuks põhjustab piiratud treening AI hallutsinatsioone. Uurimiseks saate endiselt kasutada generatiivseid tehisintellekti tööriistu, kuid veenduge, et kontrollite fakte ise. Võtke väljund soolateraga.

Bing Chat lihtsustab faktide kontrollimise protsessi, lisades iga väljundi järel selle viited.

Bard AI ei loetle oma allikaid, vaid loob Google'i otsingupäringute abil värskendatud ja põhjalikud selgitused. Peamised punktid saate SERP-idest.

ChatGPT on altid ebatäpsustele. Selle 2021. aasta teadmiste piirang ei võimalda tal vastata küsimustele hiljutiste sündmuste ja juhtumite kohta.

Looge uusi viise vestlusrobotite täpsuse testimiseks

Tehisintellekt ei ole tehnoloogia lõpptulemus. Kuigi keerukad AI-süsteemid ja keelemudelid teevad muljetavaldavaid saavutusi, teevad nad ka vigu ja ebakõlasid. Vaadake vestlusroboteid skeptiliselt. AI-põhiseid platvorme saate kasutada ainult siis, kui mõistate nende funktsioone ja piiranguid.

Kuigi platvormidel on kümneid vestlusroboteid, võivad nende töökindlus ja täpsus teile pettumust valmistada. Raiskate lihtsalt aega nende testimisele. Kvaliteetsete tulemuste tagamiseks soovitame keskenduda kolmele kõige jõulisemale mudelile turul: ChatGPT, Bing AI ja Google Bard.

About Technology - denizatm.com

8 peamist tegurit, mida AI vestlusrobotite täpsuse testimisel arvestada

1. Arvestusoskus

2. Arusaamine

3. Õigeaegsus

4. Asjakohasus

5. Kontekstuaalne mälu

6. Turvapiirangud

7. AI eelarvamused

8. Viited

Looge uusi viise vestlusrobotite täpsuse testimiseks

Kategooriad

Recent Post

Logifailide parem mõistmine Linuxis ja Macis

Mida teha, kui ajamasina varukoopiad on prügikasti kinni jäänud

Mitteaktiivsete rakenduste automaatne peitmine või sulgemine Mac OS X-is